Computer Vision · T6

3D Computer Vision mit Deep Learning

Überblick

Dieses Thema behandelt das Problem der monokularen Tiefenschätzung als inhärent mehrdeutiges Problem sowie die verschiedenen Datenformate zur Repräsentation von 3D-Szenen.

Relevanz: Die konzeptionelle Begründung der Skalenmehrdeutigkeit und die Abgrenzung der 3D-Darstellungsformen (Vor-/Nachteile) stehen im Mittelpunkt.

Kernkonzepte

Monokulare Tiefenschätzung als ill-posed Problem: Aus einem einzelnen 2D-Bild kann die absolute Tiefe nicht eindeutig bestimmt werden. Ein kleines nahes Objekt erzeugt das gleiche Bild wie ein grosses weiter entferntes Objekt (Skalenmehrdeutigkeit). Modelle lernen relative Tiefenschätzungen, keine absoluten Distanzen.
Verbreitete 3D-Darstellungen: Tiefenkarte (Depth Map): pro Pixel ein Tiefenwert; einfach, aber nur aus einer Perspektive. Voxelgitter: 3D-Raster («3D-Pixel»); konzeptuell einfach, aber speicherintensiv bei hoher Auflösung. Punktwolke (Point Cloud): ungeordnete Menge von 3D-Punkten; flexibel, typisch für LiDAR. Mesh/Netz: Oberfläche aus Vertices und Polygonen; kompakt, gut für Rendering.

Fachwörter & Glossar

Monokulare TiefenschätzungSchätzung von Tiefeninformation aus einem einzelnen Kamerabild; fundamentell mehrdeutig (ill-posed) bezüglich absoluter Skala.
Ill-posed ProblemProblem ohne eindeutige Lösung; mehrere mögliche 3D-Szenen können dasselbe 2D-Bild erzeugen.
Tiefenkarte (Depth Map)2D-Matrix, in der jeder Pixelwert die geschätzte Distanz des entsprechenden Szenenelements zur Kamera enthält.
Voxelgitter (Voxel Grid)Reguläres 3D-Raster aus Volumenelementen (Voxel = «3D-Pixel»); konzeptuell einfach, aber speicherintensiv bei hoher Auflösung.
Punktwolke (Point Cloud)Ungeordnete Menge von 3D-Punkten (x, y, z) im Raum; typische Ausgabe von LiDAR-Sensoren; flexibel, aber unstrukturiert.
Mesh (Netz)3D-Darstellung einer Oberfläche aus Vertices (Eckpunkten), Kanten und Polygonen (meist Dreiecken); kompakt und renderingfreundlich. ---