Dieses Thema gibt einen Überblick über das Ökosystem von Computer-Vision-Tools sowie über aktuelle Entwicklungen wie Foundation Models und Self-Supervised Learning.
Relevanz: Situative Abwägung (klassisch vs. Deep Learning, Cloud vs. Edge, Open Source vs. proprietär) für gegebene Szenarien. Foundation Models konzeptionell einordnen; keine API-Fragen oder Implementierungsdetails.
Foundation ModelGrosses, auf breiten Daten vortrainiertes Modell, das als Basis für viele verschiedene nachgelagerte Aufgaben genutzt werden kann (z.B. DINOv2, SAM, CLIP).Self-Supervised LearningLernparadigma, bei dem Supervisory Signals direkt aus den unannotierten Eingabedaten erzeugt werden (z.B. Masked Image Modeling, Contrastive Learning); kein manuelles Labeling nötig.Vision-Language-Modell (VLM)Modell, das Bild- und Textinformation gemeinsam verarbeitet und versteht (z.B. CLIP, BLIP); ermöglicht Open-Vocabulary-Erkennung.DINOv2Self-Supervised Vision-Foundation-Model von Meta; liefert starke visuelle Repräsentationen ohne Label-Supervision.Edge ComputingVerarbeitung von Daten direkt auf dem Endgerät (Kamera, Sensor, Embedded System) ohne Übertragung in die Cloud; latenzarm und datenschutzfreundlich.Open Vocabulary DetectionObjekterkennung für beliebige, zur Laufzeit per Text/Sprache spezifizierte Klassen, ohne auf einen festen Klassensatz beschränkt zu sein.Hugging FaceOpen-Source-Plattform und Community für vortrainierte Modelle und Datensätze; erleichtert Transfer Learning durch einfachen Modell-Download.UltralyticsFramework für YOLO-Modelle; bietet einfache API für Training, Inferenz und Deployment von Objektdetektoren und Segmentierungsmodellen. ---