Computer Vision · T7

Objekterkennung (Object Detection)

Überblick

Dieses Thema behandelt die Kerntechniken der Objekterkennung, von grundlegenden Konzepten wie IoU und NMS über Anchor Boxes bis hin zu modernen Detektor-Architekturen (R-CNN, YOLO) und Evaluationsmetriken.

Relevanz: IoU muss von Hand berechnet werden können. NMS in vier Schritten beschreiben. Precision/Recall/F1 berechnen. Unterschiede zwischen Detektor-Architekturen konzeptionell erklären (Geschwindigkeit vs. Genauigkeit).

Kernkonzepte
  • Klassifikation vs. Erkennung vs. Segmentierung: Klassifikation: «Was ist im Bild?» (eine Klasse pro Bild). Objekterkennung: «Was und wo?» (Klasse + Bounding Box pro Objekt). Segmentierung: «Welche Pixel gehören zu welchem Objekt?» (pixelgenaue Masken).
  • IoU (Intersection over Union): Masszahl für die Überlappung zweier Bounding Boxes. IoU = Fläche(Schnitt) / Fläche(Vereinigung). Typischer Schwellwert: 0.5 (eine Detektion gilt als korrekt wenn IoU ≥ 0.5).
  • Non-Maximum Suppression (NMS): (1) Detektionen nach Confidence-Score sortieren, (2) Detektion mit höchstem Score auswählen, (3) alle anderen Detektionen mit IoU > Schwellwert zur ausgewählten Box entfernen, (4) Wiederholen bis keine Boxen mehr übrig sind. Verhindert Mehrfachdetektionen desselben Objekts.
  • Anchor Boxes: Vordefinierte Boxen verschiedener Formen und Grössen pro Gitterzelle; ermöglichen dem Detektor, mehrere Objekte verschiedener Formen an der gleichen Position zu erkennen. Der Detektor lernt eine Offsets-Transformation zu den Anchors, keine absoluten Koordinaten.
  • Detektor-Architekturen: Sliding Window (klassisch, sehr langsam). R-CNN: ~2000 Regionsvorschläge, jede Region separat durch CNN (sehr langsam). Fast R-CNN: gesamtes Bild durch CNN, dann RoI-Pooling (schneller). Faster R-CNN: Region Proposal Network (RPN) integriert (Ende-zu-Ende). YOLO (You Only Look Once): ein einziger Pass durch das Netz für alle Boxen gleichzeitig (sehr schnell, Echtzeit-fähig, etwas weniger präzise als zweistufige Methoden).
  • Backbone – Neck – Head: Backbone: CNN zur Merkmalsextraktion (z.B. ResNet). Neck: verfeinert Merkmale über mehrere Skalierungsstufen (z.B. Feature Pyramid Network). Head: führt Vorhersagen durch (Klasse + Bounding-Box-Regression).
Fachwörter & Glossar
  • Bounding BoxAchsenparalleles Rechteck, das ein erkanntes Objekt im Bild umschliesst; repräsentiert durch Koordinaten (z.B. x_min, y_min, x_max, y_max oder x_center, y_center, Breite, Höhe).
  • IoU (Intersection over Union)Überlappungsmetrik zweier Bounding Boxes: Verhältnis von Schnittfläche zu Vereinigungsfläche; Werte zwischen 0 (keine Überlappung) und 1 (perfekte Überlappung).
  • NMS (Non-Maximum Suppression)Nachbearbeitungsschritt in Objektdetektoren, der redundante Boxen desselben Objekts eliminiert, indem Boxen mit grosser IoU zur besten Box entfernt werden.
  • Anchor BoxVordefinierte Box mit festgelegtem Seitenverhältnis und Grösse; Detektoren sagen Offset-Korrekturen relativ zu Anchors voraus statt absoluter Koordinaten.
  • Confidence ScoreVom Detektor ausgegebene Wahrscheinlichkeit, dass in einer vorhergesagten Box tatsächlich ein Objekt der angegebenen Klasse ist.
  • Region of Interest (RoI)Bildausschnitt, der einen Regionsvorschlag enthält und durch ein CNN zur Klassifikation und Box-Regression verarbeitet wird.
  • R-CNN (Region-based CNN)Zweistufiger Objektdetektor: erst Regionsvorschläge (z.B. ~2000 pro Bild), dann jede Region einzeln durch ein CNN. Sehr langsam.
  • Faster R-CNNEnde-zu-Ende trainierbarer Detektor mit integriertem Region Proposal Network (RPN); deutlich schneller als R-CNN.
  • YOLO (You Only Look Once)Einstufiger Detektor, der das Bild in ein Gitter einteilt und für jede Zelle gleichzeitig Boxen und Klassen vorhersagt; sehr schnell, für Echtzeit geeignet.
  • BackboneVorangestelltes CNN (z.B. ResNet, VGG) zur Extraktion von Bildmerkmalen in einem Detektor.
  • NeckMittelteil eines modernen Detektors, der Merkmale aus verschiedenen Skalierungsstufen zusammenführt und verfeinert (z.B. Feature Pyramid Network, FPN).
  • HeadLetzter Teil eines Detektors, der auf die verfeinerten Merkmale Klassen-Vorhersagen und Box-Regressionen durchführt.
  • PrecisionAnteil der korrekten Vorhersagen unter allen positiven Vorhersagen: Precision = TP / (TP + FP).
  • RecallAnteil der gefundenen positiven Instanzen unter allen tatsächlich positiven: Recall = TP / (TP + FN).
  • F1-ScoreHarmonisches Mittel von Precision und Recall: F1 = 2 · (Precision · Recall) / (Precision + Recall).
  • mAP (mean Average Precision)Mittlere durchschnittliche Präzision über alle Klassen; berechnet als Fläche unter der Precision-Recall-Kurve, gemittelt über Klassen und IoU-Schwellwerte. ---