Computer Vision · T5

Convolutional Neural Networks (CNNs) für Computer Vision

Überblick

Dieses umfangreiche Thema behandelt den Aufbau, das Training und die Regularisierung von CNNs, wichtige Architekturen von LeNet bis DenseNet sowie Encoder-Decoder-Strukturen und Transfer Learning.

Relevanz: Loss-Kurven interpretieren (Overfitting/Underfitting erkennen), Data Augmentation für konkrete Szenarien vorschlagen und Transfer Learning vs. Fine-Tuning erklären sind zentrale Prüfungskompetenzen.

Kernkonzepte

Aufbau eines neuronalen Netzes: Input-Layer (Bilddaten), Hidden Layers (Faltungsschichten, Pooling-Schichten), Fully-Connected (FC) Layers (flattened Features → Klassifikation), Output-Layer (Klassen-Scores via Softmax).
Aktivierungsfunktionen: ReLU (Rectified Linear Unit): f(x) = max(0, x); Standard in Hidden Layers, verhindert das Vanishing-Gradient-Problem. Sigmoid: gibt Werte zwischen 0 und 1 aus; für binäre Klassifikation. Softmax: normiert Ausgaben eines Vektors zu Wahrscheinlichkeiten, die sich zu 1 summieren; für Multi-Class-Klassifikation.
Pooling: Reduziert die räumliche Ausdehnung der Feature-Maps. Max-Pooling: gibt den maximalen Wert in einem Fenster aus (erkennt «ob» ein Merkmal vorhanden ist). Average-Pooling: gibt den Durchschnitt aus (weichere Repräsentation). Rolle: Translationsinvarianz, Parameterreduktion.
Overfitting vs. Underfitting: Overfitting: Modell lernt Trainingsdaten auswendig; Training-Loss niedrig, Validation-Loss steigt. Underfitting: Modell ist zu simpel; beide Losses hoch. Gegenmassnahmen bei Overfitting: Dropout, Data Augmentation, Early Stopping, L2-Regularisierung.
Vorgestellte CNN-Architekturen: LeNet (erstes CNN, MNIST), AlexNet (tiefer, ReLU, Dropout, ImageNet-Durchbruch), VGG (sehr tiefe Netze aus 3×3-Blöcken), GoogLeNet/Inception (Inception-Module: parallele Filter verschiedener Grösse), ResNet (Skip Connections verhindern Vanishing Gradients in sehr tiefen Netzen), DenseNet (jeder Layer verbunden mit allen vorherigen via Dense Connections).
Autoencoder & U-Net: Encoder-Decoder-Architektur mit Bottleneck: Encoder komprimiert (Downsampling), Decoder rekonstruiert (Upsampling). U-Net ergänzt Skip Connections zwischen entsprechenden Encoder- und Decoder-Schichten, um räumliche Details zu erhalten; Standard in der medizinischen Bildsegmentierung.
Transfer Learning: Nutzung eines auf grossen Datensätzen (z.B. ImageNet) vortrainierten Modells für eine neue Aufgabe. Feature Extraction: Backbone einfrieren (Freezing), nur den Head neu trainieren. Fine-Tuning: auch Teile des Backbones werden mit kleiner Lernrate weitertrainiert. Frühe Schichten lernen einfache Features (Kanten, Texturen), spätere Schichten lernen komplexe, aufgabenspezifische Features.

Fachwörter & Glossar

Faltungsschicht (Convolutional Layer)Schicht in einem CNN, die lernbare Filterkerne auf die Eingabe anwendet und Feature-Maps erzeugt.
Feature-MapAusgabe einer Faltungsschicht; zeigt, wo ein bestimmtes Merkmal (Filter-Muster) im Bild vorhanden ist.
ReLU (Rectified Linear Unit)Aktivierungsfunktion f(x) = max(0, x); setzt negative Werte auf 0, behält positive bei; Standard in CNNs.
SigmoidAktivierungsfunktion, die jeden Wert auf den Bereich (0, 1) abbildet; für binäre Ausgaben oder Output-Wahrscheinlichkeiten.
SoftmaxAktivierungsfunktion, die einen Vektor in ein Wahrscheinlichkeitsverteilung umwandelt (alle Werte > 0, Summe = 1); typisch im Output-Layer für Multi-Class-Klassifikation.
Max-PoolingPooling-Operation, die den Maximalwert aus einem Fenster extrahiert; erzeugt Translationsinvarianz und reduziert räumliche Dimensionen.
Epoche (Epoch)Ein vollständiger Durchlauf durch den gesamten Trainingsdatensatz.
BatchTeilmenge der Trainingsdaten, die zur Berechnung eines Gradientenschritts verwendet wird.
OverfittingModell passt sich zu stark an die Trainingsdaten an; hohe Training-Accuracy, aber schlechte Generalisierung auf unbekannte Daten.
UnderfittingModell ist zu simpel, um die Daten zu erfassen; schlechte Performance auf Training- und Testdaten.
DropoutRegularisierungstechnik: während des Trainings werden zufällig Neuronen mit Wahrscheinlichkeit p deaktiviert («dropped out»), um Co-Adaptation zu verhindern.
Data AugmentationKünstliche Vergrösserung des Trainingsdatensatzes durch zufällige Transformationen: geometrisch (Flip, Rotation, Crop), photometrisch (Helligkeit, Kontrast, Farbverschiebung), kontextuell (Cutout, Mixup).
Early StoppingTraining wird beendet, wenn die Validation-Loss aufhört zu sinken, um Overfitting zu verhindern.
Regularisierung (L2)Bestrafung grosser Gewichte im Loss-Term, um Overfitting zu reduzieren.
Skip ConnectionDirektverbindung (Shortcut) zwischen nicht-benachbarten Schichten; ermöglicht den Gradienten, Schichten zu überspringen; zentrales Element von ResNet und U-Net.
BottleneckSchicht mit sehr wenigen Kanälen/Neuronen in einer Encoder-Decoder-Architektur; zwingt das Netz zur Komprimierung der Information in eine kompakte Repräsentation.
Transfer LearningNutzung eines auf einer Quellaufgabe vortrainierten Modells als Startpunkt für eine neue Zielaufgabe.
Feature ExtractionForm des Transfer Learning, bei der der Backbone eingefroren wird und nur der neue Klassifikationskopf trainiert wird.
Fine-TuningForm des Transfer Learning, bei der zusätzlich zu einem neuen Head auch Teile des vortrainierten Backbones mit einer kleinen Lernrate weitertrainiert werden.
FreezingDas Einfrieren von Schichten (Gewichte werden nicht aktualisiert) während des Trainings; typisch bei Transfer Learning.
ResNet (Residual Network)CNN-Architektur mit Skip Connections (Residual Connections), die das Vanishing-Gradient-Problem in sehr tiefen Netzen löst.
GoogLeNet / InceptionCNN-Architektur, die Inception-Module mit parallelen Faltungsfiltern verschiedener Grössen verwendet.
DenseNetCNN-Architektur, bei der jede Schicht mit allen vorherigen Schichten verbunden ist (Dense Connections), was Feature-Reuse fördert.
U-NetEncoder-Decoder-CNN mit Skip Connections zwischen symmetrischen Schichten; ermöglicht hochauflösende Segmentierungsmasken; Standard in der medizinischen Bildverarbeitung.
AutoencoderUnüberwacht trainiertes Netz mit Encoder-Bottleneck-Decoder-Struktur zum Lernen einer komprimierten Repräsentation der Eingabe. ---