Dieses Thema behandelt die Kerntechniken der Objekterkennung, von grundlegenden Konzepten wie IoU und NMS über Anchor Boxes bis hin zu modernen Detektor-Architekturen (R-CNN, YOLO) und Evaluationsmetriken.
Relevanz: IoU muss von Hand berechnet werden können. NMS in vier Schritten beschreiben. Precision/Recall/F1 berechnen. Unterschiede zwischen Detektor-Architekturen konzeptionell erklären (Geschwindigkeit vs. Genauigkeit).
Bounding BoxAchsenparalleles Rechteck, das ein erkanntes Objekt im Bild umschliesst; repräsentiert durch Koordinaten (z.B. x_min, y_min, x_max, y_max oder x_center, y_center, Breite, Höhe).IoU (Intersection over Union)Überlappungsmetrik zweier Bounding Boxes: Verhältnis von Schnittfläche zu Vereinigungsfläche; Werte zwischen 0 (keine Überlappung) und 1 (perfekte Überlappung).NMS (Non-Maximum Suppression)Nachbearbeitungsschritt in Objektdetektoren, der redundante Boxen desselben Objekts eliminiert, indem Boxen mit grosser IoU zur besten Box entfernt werden.Anchor BoxVordefinierte Box mit festgelegtem Seitenverhältnis und Grösse; Detektoren sagen Offset-Korrekturen relativ zu Anchors voraus statt absoluter Koordinaten.Confidence ScoreVom Detektor ausgegebene Wahrscheinlichkeit, dass in einer vorhergesagten Box tatsächlich ein Objekt der angegebenen Klasse ist.Region of Interest (RoI)Bildausschnitt, der einen Regionsvorschlag enthält und durch ein CNN zur Klassifikation und Box-Regression verarbeitet wird.R-CNN (Region-based CNN)Zweistufiger Objektdetektor: erst Regionsvorschläge (z.B. ~2000 pro Bild), dann jede Region einzeln durch ein CNN. Sehr langsam.Faster R-CNNEnde-zu-Ende trainierbarer Detektor mit integriertem Region Proposal Network (RPN); deutlich schneller als R-CNN.YOLO (You Only Look Once)Einstufiger Detektor, der das Bild in ein Gitter einteilt und für jede Zelle gleichzeitig Boxen und Klassen vorhersagt; sehr schnell, für Echtzeit geeignet.BackboneVorangestelltes CNN (z.B. ResNet, VGG) zur Extraktion von Bildmerkmalen in einem Detektor.NeckMittelteil eines modernen Detektors, der Merkmale aus verschiedenen Skalierungsstufen zusammenführt und verfeinert (z.B. Feature Pyramid Network, FPN).HeadLetzter Teil eines Detektors, der auf die verfeinerten Merkmale Klassen-Vorhersagen und Box-Regressionen durchführt.PrecisionAnteil der korrekten Vorhersagen unter allen positiven Vorhersagen: Precision = TP / (TP + FP).RecallAnteil der gefundenen positiven Instanzen unter allen tatsächlich positiven: Recall = TP / (TP + FN).F1-ScoreHarmonisches Mittel von Precision und Recall: F1 = 2 · (Precision · Recall) / (Precision + Recall).mAP (mean Average Precision)Mittlere durchschnittliche Präzision über alle Klassen; berechnet als Fläche unter der Precision-Recall-Kurve, gemittelt über Klassen und IoU-Schwellwerte. ---