Computer Vision · T10

Tools, Frameworks und aktuelle Trends

Überblick

Dieses Thema gibt einen Überblick über das Ökosystem von Computer-Vision-Tools sowie über aktuelle Entwicklungen wie Foundation Models und Self-Supervised Learning.

Relevanz: Situative Abwägung (klassisch vs. Deep Learning, Cloud vs. Edge, Open Source vs. proprietär) für gegebene Szenarien. Foundation Models konzeptionell einordnen; keine API-Fragen oder Implementierungsdetails.

Kernkonzepte
  • Tool-Dimensionen: Klassische CV vs. Deep Learning (OpenCV vs. PyTorch/Ultralytics). Cloud vs. Edge: Cloud bietet Rechenleistung und skaliert, Edge ist datenschutzfreundlich und latenzarm. Open Source (YOLO, Hugging Face, OpenCV) vs. proprietär (Azure Vision, Google Vision API).
  • Foundation Models: Grosse, auf riesigen Datensätzen vortrainierte Modelle, die als universelles Backbone für viele Downstream-Aufgaben dienen. Beispiele: DINOv2 (Self-Supervised Vision-Backbone), SAM (Segment Anything), CLIP/BLIP (Vision-Language-Modelle).
  • Self-Supervised Learning: Trainingsmethode, bei der das Modell ohne manuell annotierte Labels aus der Struktur der Daten selbst lernt (z.B. durch Vorhersage von Teilen des Bildes oder Kontrastives Lernen). Ermöglicht Training auf Milliarden von Bildern ohne Annotationsaufwand.
Fachwörter & Glossar
  • Foundation ModelGrosses, auf breiten Daten vortrainiertes Modell, das als Basis für viele verschiedene nachgelagerte Aufgaben genutzt werden kann (z.B. DINOv2, SAM, CLIP).
  • Self-Supervised LearningLernparadigma, bei dem Supervisory Signals direkt aus den unannotierten Eingabedaten erzeugt werden (z.B. Masked Image Modeling, Contrastive Learning); kein manuelles Labeling nötig.
  • Vision-Language-Modell (VLM)Modell, das Bild- und Textinformation gemeinsam verarbeitet und versteht (z.B. CLIP, BLIP); ermöglicht Open-Vocabulary-Erkennung.
  • DINOv2Self-Supervised Vision-Foundation-Model von Meta; liefert starke visuelle Repräsentationen ohne Label-Supervision.
  • Edge ComputingVerarbeitung von Daten direkt auf dem Endgerät (Kamera, Sensor, Embedded System) ohne Übertragung in die Cloud; latenzarm und datenschutzfreundlich.
  • Open Vocabulary DetectionObjekterkennung für beliebige, zur Laufzeit per Text/Sprache spezifizierte Klassen, ohne auf einen festen Klassensatz beschränkt zu sein.
  • Hugging FaceOpen-Source-Plattform und Community für vortrainierte Modelle und Datensätze; erleichtert Transfer Learning durch einfachen Modell-Download.
  • UltralyticsFramework für YOLO-Modelle; bietet einfache API für Training, Inferenz und Deployment von Objektdetektoren und Segmentierungsmodellen. ---