Computer Vision · T9

Tracking und Bewegungsschätzung

Überblick

Dieses Thema behandelt die Schätzung von Bewegungen auf Pixel-Ebene (Optical Flow) sowie die Verfolgung von Objekten über Zeit (Tracking), von klassischen Methoden bis zu modernen Deep-Learning-Trackern.

Relevanz: Handskizzen des Optical-Flow-Vektorfeldes sind prüfungsrelevant. Das Aperture-Problem muss erklärt werden können. Die Tracker-Familie (SORT → DeepSORT → ByteTrack → BoT-SORT) muss in Bezug auf ihre jeweiligen Verbesserungen eingeordnet werden.

Kernkonzepte
  • Optical Flow: Schätzt für jedes Pixel im Bild einen 2D-Bewegungsvektor zwischen zwei aufeinanderfolgenden Frames. Basiert auf der Annahme der Helligkeitskonstanz (ein Pixel behält bei kleiner Bewegung seine Helligkeit). Ergebnis ist ein dichtes Vektorfeld über dem Bild.
  • Aperture-Problem: Betrachtet man ein Muster nur durch ein kleines Fenster (Apertur), ist die wahre Bewegungsrichtung mehrdeutig: nur die Bewegungskomponente senkrecht zur Kante kann bestimmt werden. An Ecken (mehrere Kantenrichtungen) ist Optical Flow eindeutig bestimmbar.
  • Tracking-by-Detection-Pipeline: (1) Objektdetektion in jedem Frame, (2) Bewegungsvorhersage für bestehende Tracks (z.B. Kalman-Filter), (3) Zuordnung neuer Detektionen zu bestehenden Tracks (z.B. Hungarian-Algorithmus basierend auf IoU), (4) Track-Verwaltung (neue Tracks anlegen, verlorene Tracks beenden).
  • Tracker-Entwicklung: SORT (Simple Online Realtime Tracker): nur IoU für Zuordnung + Kalman-Filter; verliert IDs bei Verdeckung. DeepSORT: ergänzt Re-ID-Features (visuelle Merkmale) für robusteres Matching bei Verdeckung. ByteTrack: nutzt auch Detektionen mit niedrigem Confidence-Score in zwei Phasen; verringert ID-Switches. BoT-SORT: ergänzt Camera Motion Compensation (CMC) und verbesserten Kalman-Filter; robust bei bewegter Kamera.
Fachwörter & Glossar
  • Optical FlowGeschätzte scheinbare Bewegung von Bildpunkten zwischen zwei Frames, dargestellt als 2D-Vektorfeld; beschreibt Bewegung auf Pixel-Ebene.
  • Helligkeitskonstanz (Brightness Constancy Assumption)Annahme des Optical Flow, dass ein Pixel bei kleiner Bewegung zwischen Frames seine Helligkeit beibehält.
  • Aperture-ProblemMehrdeutigkeit der Optical-Flow-Richtung, wenn ein Muster nur durch ein kleines Fenster sichtbar ist; nur die Normalenkomponente zur Kante ist bestimmbar.
  • Sparse Optical FlowSchätzt Bewegungsvektoren nur für ausgewählte markante Punkte (z.B. Lucas-Kanade Methode, KLT-Tracker).
  • Dense Optical FlowSchätzt Bewegungsvektoren für alle Pixel des Bildes (z.B. Farnebäck, RAFT).
  • SOT (Single Object Tracking)Verfolgung eines einzelnen, beim Start des Videos markierten Objekts.
  • MOT (Multi-Object Tracking)Gleichzeitige Verfolgung mehrerer Objekte über eine Videosequenz; löst das Zuordnungsproblem (welche Detektion gehört zu welchem Track?).
  • Tracking-by-DetectionMOT-Paradigma: in jedem Frame werden zuerst Objekte detektiert (Detector), dann den bestehenden Tracks zugeordnet (Association).
  • Kalman-FilterRekursiver Schätzalgorithmus in zwei Schritten: (1) Prädiktion (wo wird das Objekt im nächsten Frame sein, basierend auf einem Bewegungsmodell?), (2) Korrektur (update mit der tatsächlichen Messung/Detektion).
  • Hungarian-AlgorithmusKombinatorischer Optimierungsalgorithmus zur optimalen Zuordnung von Detektionen zu bestehenden Tracks; minimiert globale Zuordnungskosten (z.B. IoU-Distanz).
  • SORT (Simple Online and Realtime Tracker)Tracker, der IoU-Distanz und Kalman-Filter verwendet; schnell, aber verliert IDs bei Verdeckung (kein visuelle Re-ID).
  • DeepSORTErweiterung von SORT mit einem CNN-basierten Re-ID-Modul, das visuelle Erscheinungsmerkmale für robusteres Matching bei Verdeckung nutzt.
  • ByteTrackTracker, der auch Detektionen mit niedrigem Confidence-Score in einem zweiten Matching-Schritt nutzt, um weniger ID-Switches zu erzeugen.
  • BoT-SORTErweiterung von ByteTrack mit Camera Motion Compensation (CMC) und verbessertem Kalman-Filter; robuster bei bewegter Kamera und langen Verdeckungen.
  • Re-ID (Re-Identification)Visuelle Wiedererkennung eines Objekts anhand von Erscheinungsmerkmalen nach kurzer Verdeckung oder Absence. ---