Computer Vision · T8

Bildsegmentierung

Überblick

Dieses Thema behandelt die drei Varianten der Bildsegmentierung (semantisch, Instanz, panoptisch), klassische und Deep-Learning-basierte Verfahren sowie die geeigneten Evaluationsmetriken.

Relevanz: Unterschied der drei Segmentierungsarten an einem Beispiel erklären können. Schwäche der Pixel Accuracy bei unbalancierten Klassen (Praxisbeispiel: Tumor-Segmentierung) erkennen.

Kernkonzepte

Drei Segmentierungsarten: Semantische Segmentierung: jedes Pixel erhält eine Klasse, aber keine Instanz-Unterscheidung (alle Kühe = gleiche Farbe). Instanz-Segmentierung: unterscheidet zusätzlich einzelne Objekt-Instanzen (Kuh 1 vs. Kuh 2). Panoptische Segmentierung: kombiniert semantische (Hintergrund-Klassen) und Instanz-Segmentierung in einem einzigen Modell.
Klassische Segmentierungsverfahren: Thresholding (Otsu): automatische Schwellwertsuche durch Minimierung der Intra-Klassen-Varianz. Region Growing: ausgehend von Seed-Pixeln werden benachbarte Pixel mit ähnlicher Intensität zur Region hinzugefügt. Watershed: behandelt das Gradienten-Bild als Topographie und füllt «Wasserbecken» von lokalen Minima aus. GrabCut: interaktives Verfahren mit Bounding-Box-Eingabe, das Vordergrund/Hintergrund iterativ trennt.
Schwäche der Pixel Accuracy: Bei stark unbalancierten Klassen (z.B. Tumor = 1% der Pixel, Hintergrund = 99%) kann ein Modell 99% Accuracy erreichen, indem es alles als Hintergrund klassifiziert. Daher sind IoU und Dice besser geeignet.

Fachwörter & Glossar

Semantische SegmentierungPixelweise Klassifikation, bei der jedes Pixel einer Klasse zugeordnet wird, ohne zwischen Instanzen derselben Klasse zu unterscheiden.
Instanz-SegmentierungErweiterung der semantischen Segmentierung, die zusätzlich einzelne Objekt-Instanzen derselben Klasse voneinander trennt.
Panoptische SegmentierungKombination aus semantischer und Instanz-Segmentierung; ordnet jedem Pixel sowohl eine Klasse als auch (für zählbare Objekte) eine Instanz-ID zu.
Thresholding (Schwellwertverfahren)Segmentierung durch Vergleich von Pixelintensitäten mit einem Schwellwert; Pixel über dem Schwellwert = Vordergrund, darunter = Hintergrund.
Otsu-MethodeAutomatischer Algorithmus zur Bestimmung des optimalen Schwellwerts durch Minimierung der Intra-Klassen-Varianz der Intensitätshistogramm-Verteilung.
Region GrowingSegmentierungsverfahren, das von Seed-Pixeln ausgehend benachbarte Pixel mit ähnlichen Eigenschaften iterativ zur Region hinzufügt.
Watershed-AlgorithmusSegmentierungsverfahren, das das Gradienten-Bild als Geländemodell interpretiert und Regionen durch Fluten von lokalen Minima bildet.
GrabCutInteraktives Segmentierungsverfahren, das eine Bounding-Box als Eingabe nimmt und Vordergrund/Hintergrund iterativ über ein Graphschnitt-Modell trennt.
Mask R-CNNErweiterung von Faster R-CNN für Instanz-Segmentierung; fügt einen parallelen Masken-Vorhersage-Zweig pro RoI hinzu.
SAM (Segment Anything Model)Promptbares Segmentierungsmodell von Meta; kann Objekte im Bild durch Punkte, Boxen oder Text-Prompts segmentieren; Foundation-Model-Ansatz.
IoU (Segmentierung)Überlappungsmetrik für Masken: Fläche der Schnittmenge dividiert durch Fläche der Vereinigung von vorhergesagter und Ground-Truth-Maske.
Dice-KoeffizientÄhnlichkeitsmass für Masken: 2 · |Schnittmenge| / (|Maske A| + |Maske B|); ähnlich IoU, aber stärker auf gemeinsame Flächen gewichtet.
mIoU (mean IoU)Mittlerer IoU über alle Klassen; Standard-Evaluationsmetrik für semantische Segmentierung.
Pixel AccuracyAnteil korrekt klassifizierter Pixel; ungeeignet bei unbalancierten Klassen (z.B. kleine Tumorbereiche).
FCN (Fully Convolutional Network)Netzarchitektur für semantische Segmentierung, die nur aus Faltungsschichten besteht (keine FC-Layer) und beliebige Eingabegrössen verarbeiten kann. ---