Computer Vision · T2

Digitale Bildrepräsentation und Bildverarbeitung

Überblick

Dieses Thema deckt ab, wie Bilder digital als Pixel-Matrizen mit Kanälen repräsentiert werden und welche mathematischen Operationen (Faltung, Kreuzkorrelation) zur Bildverarbeitung und Merkmalserkennung eingesetzt werden, inklusive Fourier-Analyse.

Relevanz: Handberechnungen von Faltungen/Kreuzkorrelationen auf kleinen Ausschnitten sind explizit prüfungsrelevant. Die fünf Schritte des Canny-Algorithmus müssen benannt und erklärt werden können. Fourier ohne Formeln, nur konzeptionell.

Kernkonzepte
  • Bildrepräsentation als Pixel-Matrix: Ein digitales Bild ist eine Matrix aus Zahlenwerten (Pixel), wobei jede Zahl eine Intensität codiert. Farbbilder haben mehrere Kanäle (z.B. R, G, B), also eine 3D-Matrix der Form Höhe × Breite × Kanäle.
  • Kreuzkorrelation vs. Faltung (Convolution): Bei der Kreuzkorrelation wird der Filter direkt über das Bild geschoben und ein Skalarprodukt berechnet. Bei der Faltung wird der Filter zusätzlich horizontal und vertikal gespiegelt, bevor er angewandt wird. In Deep Learning werden oft Kreuzkorrelationen als «Faltungen» bezeichnet.
  • Fourier-Transformation für Bilder: Zerlegt ein Bild aus dem Ortsbereich (Pixel-Positionen) in seine Frequenzanteile im Frequenzbereich. Tieffrequente Anteile repräsentieren globale Strukturen, hochfrequente Anteile repräsentieren Kanten und Rauschen.
  • Canny-Kantenerkennung (5 Schritte): (1) Glättung mit Gaussfilter, (2) Gradientenberechnung (Magnitude & Richtung) mit Sobel, (3) Non-Maximum Suppression (Ausdünnung auf 1-Pixel-Kanten), (4) Double Threshold (Klassifikation in starke/schwache Kanten), (5) Hysterese/Edge Tracking (schwache Kanten nur behalten wenn mit starker Kante verbunden).
Fachwörter & Glossar
  • PixelKleinste Einheit eines digitalen Bildes, repräsentiert durch einen oder mehrere Zahlenwerte (Intensität pro Kanal).
  • KanalEine Schicht der Pixel-Matrix, die eine Farbkomponente oder Merkmalsebene enthält (z.B. Rot-, Grün-, Blaukanal).
  • KreuzkorrelationMathematische Operation, bei der ein Filter direkt (ungespiegelt) über ein Bild geschoben und pixelweise ein Skalarprodukt berechnet wird.
  • Faltung (Convolution)Wie die Kreuzkorrelation, aber der Filterkern wird vor der Anwendung horizontal und vertikal gespiegelt.
  • Filterkern (Kernel)Kleine Matrix (z.B. 3×3), die über das Bild geschoben wird und lokale Bildmerkmale wie Kanten oder Glättungen detektiert.
  • PaddingErweiterung des Eingabebildes am Rand (z.B. mit Nullen), damit der Output die gleiche räumliche Grösse wie der Input beibehält.
  • Stride (Schrittweite)Anzahl Pixel, um die der Filterkern bei jeder Verschiebung weitergeschoben wird; ein Stride > 1 reduziert die räumliche Ausgabegrösse.
  • Mittelwertfilter (Box Filter)Filterkern, bei dem alle Gewichte gleich sind; bewirkt eine Glättung des Bildes (Weichzeichnung, Rauschreduktion).
  • GaussfilterGlättungsfilter mit einer gauss-förmigen Gewichtsverteilung; benachbarte Pixel haben mehr Einfluss als weiter entfernte; robuster gegen Rauschen als der Mittelwertfilter.
  • Sobel-FilterFilterpaar zur Berechnung des Bildgradienten in x- und y-Richtung; hebt Kanten hervor; Basis der Canny-Kantenerkennung.
  • Laplace-FilterFilter zweiter Ordnung, der auf Intensitätsänderungen in alle Richtungen reagiert; detektiert Kanten durch Nulldurchgänge der zweiten Ableitung.
  • Non-Maximum Suppression (NMS in Canny)Schritt im Canny-Algorithmus, der dicke Kanten auf 1-Pixel-breite Linien ausdünnt, indem nur lokale Maxima in Gradientenrichtung behalten werden.
  • Double ThresholdSchritt im Canny-Algorithmus mit einem oberen (high) und unteren (low) Schwellwert zur Klassifikation in starke Kanten, schwache Kanten und Nicht-Kanten.
  • Hysterese (Edge Tracking by Hysteresis)Letzter Schritt von Canny: schwache Kanten werden nur behalten, wenn sie mit einer starken Kante verbunden sind, um Rauschen zu eliminieren.
  • Ortsdomäne (Spatial Domain)Bildrepräsentation als Matrix von Pixelintensitäten an Ortspositionen (x, y).
  • Frequenzdomäne (Frequency Domain)Bildrepräsentation nach der Fourier-Transformation; beschreibt, welche Frequenzen (Muster) im Bild enthalten sind.
  • TiefpassfilterLässt nur tiefe Frequenzen durch; entfernt hochfrequente Anteile (Kanten, Rauschen); entspricht einer Glättung.
  • HochpassfilterLässt nur hohe Frequenzen durch; entfernt tieffrequente Anteile (globale Struktur); betont Kanten und Details.
  • BandpassfilterLässt nur einen bestimmten Frequenzbereich durch; filtert sowohl sehr tiefe als auch sehr hohe Frequenzen heraus. ---