Computer Vision · T5

Convolutional Neural Networks (CNNs) für Computer Vision

Überblick

Dieses umfangreiche Thema behandelt den Aufbau, das Training und die Regularisierung von CNNs, wichtige Architekturen von LeNet bis DenseNet sowie Encoder-Decoder-Strukturen und Transfer Learning.

Relevanz: Loss-Kurven interpretieren (Overfitting/Underfitting erkennen), Data Augmentation für konkrete Szenarien vorschlagen und Transfer Learning vs. Fine-Tuning erklären sind zentrale Prüfungskompetenzen.

Kernkonzepte
  • Aufbau eines neuronalen Netzes: Input-Layer (Bilddaten), Hidden Layers (Faltungsschichten, Pooling-Schichten), Fully-Connected (FC) Layers (flattened Features → Klassifikation), Output-Layer (Klassen-Scores via Softmax).
  • Aktivierungsfunktionen: ReLU (Rectified Linear Unit): f(x) = max(0, x); Standard in Hidden Layers, verhindert das Vanishing-Gradient-Problem. Sigmoid: gibt Werte zwischen 0 und 1 aus; für binäre Klassifikation. Softmax: normiert Ausgaben eines Vektors zu Wahrscheinlichkeiten, die sich zu 1 summieren; für Multi-Class-Klassifikation.
  • Pooling: Reduziert die räumliche Ausdehnung der Feature-Maps. Max-Pooling: gibt den maximalen Wert in einem Fenster aus (erkennt «ob» ein Merkmal vorhanden ist). Average-Pooling: gibt den Durchschnitt aus (weichere Repräsentation). Rolle: Translationsinvarianz, Parameterreduktion.
  • Overfitting vs. Underfitting: Overfitting: Modell lernt Trainingsdaten auswendig; Training-Loss niedrig, Validation-Loss steigt. Underfitting: Modell ist zu simpel; beide Losses hoch. Gegenmassnahmen bei Overfitting: Dropout, Data Augmentation, Early Stopping, L2-Regularisierung.
  • Vorgestellte CNN-Architekturen: LeNet (erstes CNN, MNIST), AlexNet (tiefer, ReLU, Dropout, ImageNet-Durchbruch), VGG (sehr tiefe Netze aus 3×3-Blöcken), GoogLeNet/Inception (Inception-Module: parallele Filter verschiedener Grösse), ResNet (Skip Connections verhindern Vanishing Gradients in sehr tiefen Netzen), DenseNet (jeder Layer verbunden mit allen vorherigen via Dense Connections).
  • Autoencoder & U-Net: Encoder-Decoder-Architektur mit Bottleneck: Encoder komprimiert (Downsampling), Decoder rekonstruiert (Upsampling). U-Net ergänzt Skip Connections zwischen entsprechenden Encoder- und Decoder-Schichten, um räumliche Details zu erhalten; Standard in der medizinischen Bildsegmentierung.
  • Transfer Learning: Nutzung eines auf grossen Datensätzen (z.B. ImageNet) vortrainierten Modells für eine neue Aufgabe. Feature Extraction: Backbone einfrieren (Freezing), nur den Head neu trainieren. Fine-Tuning: auch Teile des Backbones werden mit kleiner Lernrate weitertrainiert. Frühe Schichten lernen einfache Features (Kanten, Texturen), spätere Schichten lernen komplexe, aufgabenspezifische Features.
Fachwörter & Glossar
  • Faltungsschicht (Convolutional Layer)Schicht in einem CNN, die lernbare Filterkerne auf die Eingabe anwendet und Feature-Maps erzeugt.
  • Feature-MapAusgabe einer Faltungsschicht; zeigt, wo ein bestimmtes Merkmal (Filter-Muster) im Bild vorhanden ist.
  • ReLU (Rectified Linear Unit)Aktivierungsfunktion f(x) = max(0, x); setzt negative Werte auf 0, behält positive bei; Standard in CNNs.
  • SigmoidAktivierungsfunktion, die jeden Wert auf den Bereich (0, 1) abbildet; für binäre Ausgaben oder Output-Wahrscheinlichkeiten.
  • SoftmaxAktivierungsfunktion, die einen Vektor in ein Wahrscheinlichkeitsverteilung umwandelt (alle Werte > 0, Summe = 1); typisch im Output-Layer für Multi-Class-Klassifikation.
  • Max-PoolingPooling-Operation, die den Maximalwert aus einem Fenster extrahiert; erzeugt Translationsinvarianz und reduziert räumliche Dimensionen.
  • Epoche (Epoch)Ein vollständiger Durchlauf durch den gesamten Trainingsdatensatz.
  • BatchTeilmenge der Trainingsdaten, die zur Berechnung eines Gradientenschritts verwendet wird.
  • OverfittingModell passt sich zu stark an die Trainingsdaten an; hohe Training-Accuracy, aber schlechte Generalisierung auf unbekannte Daten.
  • UnderfittingModell ist zu simpel, um die Daten zu erfassen; schlechte Performance auf Training- und Testdaten.
  • DropoutRegularisierungstechnik: während des Trainings werden zufällig Neuronen mit Wahrscheinlichkeit p deaktiviert («dropped out»), um Co-Adaptation zu verhindern.
  • Data AugmentationKünstliche Vergrösserung des Trainingsdatensatzes durch zufällige Transformationen: geometrisch (Flip, Rotation, Crop), photometrisch (Helligkeit, Kontrast, Farbverschiebung), kontextuell (Cutout, Mixup).
  • Early StoppingTraining wird beendet, wenn die Validation-Loss aufhört zu sinken, um Overfitting zu verhindern.
  • Regularisierung (L2)Bestrafung grosser Gewichte im Loss-Term, um Overfitting zu reduzieren.
  • Skip ConnectionDirektverbindung (Shortcut) zwischen nicht-benachbarten Schichten; ermöglicht den Gradienten, Schichten zu überspringen; zentrales Element von ResNet und U-Net.
  • BottleneckSchicht mit sehr wenigen Kanälen/Neuronen in einer Encoder-Decoder-Architektur; zwingt das Netz zur Komprimierung der Information in eine kompakte Repräsentation.
  • Transfer LearningNutzung eines auf einer Quellaufgabe vortrainierten Modells als Startpunkt für eine neue Zielaufgabe.
  • Feature ExtractionForm des Transfer Learning, bei der der Backbone eingefroren wird und nur der neue Klassifikationskopf trainiert wird.
  • Fine-TuningForm des Transfer Learning, bei der zusätzlich zu einem neuen Head auch Teile des vortrainierten Backbones mit einer kleinen Lernrate weitertrainiert werden.
  • FreezingDas Einfrieren von Schichten (Gewichte werden nicht aktualisiert) während des Trainings; typisch bei Transfer Learning.
  • ResNet (Residual Network)CNN-Architektur mit Skip Connections (Residual Connections), die das Vanishing-Gradient-Problem in sehr tiefen Netzen löst.
  • GoogLeNet / InceptionCNN-Architektur, die Inception-Module mit parallelen Faltungsfiltern verschiedener Grössen verwendet.
  • DenseNetCNN-Architektur, bei der jede Schicht mit allen vorherigen Schichten verbunden ist (Dense Connections), was Feature-Reuse fördert.
  • U-NetEncoder-Decoder-CNN mit Skip Connections zwischen symmetrischen Schichten; ermöglicht hochauflösende Segmentierungsmasken; Standard in der medizinischen Bildverarbeitung.
  • AutoencoderUnüberwacht trainiertes Netz mit Encoder-Bottleneck-Decoder-Struktur zum Lernen einer komprimierten Repräsentation der Eingabe. ---