Computer Vision · T7

Objekterkennung (Object Detection)

Überblick

Dieses Thema behandelt die Kerntechniken der Objekterkennung, von grundlegenden Konzepten wie IoU und NMS über Anchor Boxes bis hin zu modernen Detektor-Architekturen (R-CNN, YOLO) und Evaluationsmetriken.

Relevanz: IoU muss von Hand berechnet werden können. NMS in vier Schritten beschreiben. Precision/Recall/F1 berechnen. Unterschiede zwischen Detektor-Architekturen konzeptionell erklären (Geschwindigkeit vs. Genauigkeit).

Kernkonzepte

Klassifikation vs. Erkennung vs. Segmentierung: Klassifikation: «Was ist im Bild?» (eine Klasse pro Bild). Objekterkennung: «Was und wo?» (Klasse + Bounding Box pro Objekt). Segmentierung: «Welche Pixel gehören zu welchem Objekt?» (pixelgenaue Masken).
IoU (Intersection over Union): Masszahl für die Überlappung zweier Bounding Boxes. IoU = Fläche(Schnitt) / Fläche(Vereinigung). Typischer Schwellwert: 0.5 (eine Detektion gilt als korrekt wenn IoU ≥ 0.5).
Non-Maximum Suppression (NMS): (1) Detektionen nach Confidence-Score sortieren, (2) Detektion mit höchstem Score auswählen, (3) alle anderen Detektionen mit IoU > Schwellwert zur ausgewählten Box entfernen, (4) Wiederholen bis keine Boxen mehr übrig sind. Verhindert Mehrfachdetektionen desselben Objekts.
Anchor Boxes: Vordefinierte Boxen verschiedener Formen und Grössen pro Gitterzelle; ermöglichen dem Detektor, mehrere Objekte verschiedener Formen an der gleichen Position zu erkennen. Der Detektor lernt eine Offsets-Transformation zu den Anchors, keine absoluten Koordinaten.
Detektor-Architekturen: Sliding Window (klassisch, sehr langsam). R-CNN: ~2000 Regionsvorschläge, jede Region separat durch CNN (sehr langsam). Fast R-CNN: gesamtes Bild durch CNN, dann RoI-Pooling (schneller). Faster R-CNN: Region Proposal Network (RPN) integriert (Ende-zu-Ende). YOLO (You Only Look Once): ein einziger Pass durch das Netz für alle Boxen gleichzeitig (sehr schnell, Echtzeit-fähig, etwas weniger präzise als zweistufige Methoden).
Backbone – Neck – Head: Backbone: CNN zur Merkmalsextraktion (z.B. ResNet). Neck: verfeinert Merkmale über mehrere Skalierungsstufen (z.B. Feature Pyramid Network). Head: führt Vorhersagen durch (Klasse + Bounding-Box-Regression).

Fachwörter & Glossar

Bounding BoxAchsenparalleles Rechteck, das ein erkanntes Objekt im Bild umschliesst; repräsentiert durch Koordinaten (z.B. x_min, y_min, x_max, y_max oder x_center, y_center, Breite, Höhe).
IoU (Intersection over Union)Überlappungsmetrik zweier Bounding Boxes: Verhältnis von Schnittfläche zu Vereinigungsfläche; Werte zwischen 0 (keine Überlappung) und 1 (perfekte Überlappung).
NMS (Non-Maximum Suppression)Nachbearbeitungsschritt in Objektdetektoren, der redundante Boxen desselben Objekts eliminiert, indem Boxen mit grosser IoU zur besten Box entfernt werden.
Anchor BoxVordefinierte Box mit festgelegtem Seitenverhältnis und Grösse; Detektoren sagen Offset-Korrekturen relativ zu Anchors voraus statt absoluter Koordinaten.
Confidence ScoreVom Detektor ausgegebene Wahrscheinlichkeit, dass in einer vorhergesagten Box tatsächlich ein Objekt der angegebenen Klasse ist.
Region of Interest (RoI)Bildausschnitt, der einen Regionsvorschlag enthält und durch ein CNN zur Klassifikation und Box-Regression verarbeitet wird.
R-CNN (Region-based CNN)Zweistufiger Objektdetektor: erst Regionsvorschläge (z.B. ~2000 pro Bild), dann jede Region einzeln durch ein CNN. Sehr langsam.
Faster R-CNNEnde-zu-Ende trainierbarer Detektor mit integriertem Region Proposal Network (RPN); deutlich schneller als R-CNN.
YOLO (You Only Look Once)Einstufiger Detektor, der das Bild in ein Gitter einteilt und für jede Zelle gleichzeitig Boxen und Klassen vorhersagt; sehr schnell, für Echtzeit geeignet.
BackboneVorangestelltes CNN (z.B. ResNet, VGG) zur Extraktion von Bildmerkmalen in einem Detektor.
NeckMittelteil eines modernen Detektors, der Merkmale aus verschiedenen Skalierungsstufen zusammenführt und verfeinert (z.B. Feature Pyramid Network, FPN).
HeadLetzter Teil eines Detektors, der auf die verfeinerten Merkmale Klassen-Vorhersagen und Box-Regressionen durchführt.
PrecisionAnteil der korrekten Vorhersagen unter allen positiven Vorhersagen: Precision = TP / (TP + FP).
RecallAnteil der gefundenen positiven Instanzen unter allen tatsächlich positiven: Recall = TP / (TP + FN).
F1-ScoreHarmonisches Mittel von Precision und Recall: F1 = 2 · (Precision · Recall) / (Precision + Recall).
mAP (mean Average Precision)Mittlere durchschnittliche Präzision über alle Klassen; berechnet als Fläche unter der Precision-Recall-Kurve, gemittelt über Klassen und IoU-Schwellwerte. ---