Dieses umfangreiche Thema behandelt den Aufbau, das Training und die Regularisierung von CNNs, wichtige Architekturen von LeNet bis DenseNet sowie Encoder-Decoder-Strukturen und Transfer Learning.
Relevanz: Loss-Kurven interpretieren (Overfitting/Underfitting erkennen), Data Augmentation für konkrete Szenarien vorschlagen und Transfer Learning vs. Fine-Tuning erklären sind zentrale Prüfungskompetenzen.
Faltungsschicht (Convolutional Layer)Schicht in einem CNN, die lernbare Filterkerne auf die Eingabe anwendet und Feature-Maps erzeugt.Feature-MapAusgabe einer Faltungsschicht; zeigt, wo ein bestimmtes Merkmal (Filter-Muster) im Bild vorhanden ist.ReLU (Rectified Linear Unit)Aktivierungsfunktion f(x) = max(0, x); setzt negative Werte auf 0, behält positive bei; Standard in CNNs.SigmoidAktivierungsfunktion, die jeden Wert auf den Bereich (0, 1) abbildet; für binäre Ausgaben oder Output-Wahrscheinlichkeiten.SoftmaxAktivierungsfunktion, die einen Vektor in ein Wahrscheinlichkeitsverteilung umwandelt (alle Werte > 0, Summe = 1); typisch im Output-Layer für Multi-Class-Klassifikation.Max-PoolingPooling-Operation, die den Maximalwert aus einem Fenster extrahiert; erzeugt Translationsinvarianz und reduziert räumliche Dimensionen.Epoche (Epoch)Ein vollständiger Durchlauf durch den gesamten Trainingsdatensatz.BatchTeilmenge der Trainingsdaten, die zur Berechnung eines Gradientenschritts verwendet wird.OverfittingModell passt sich zu stark an die Trainingsdaten an; hohe Training-Accuracy, aber schlechte Generalisierung auf unbekannte Daten.UnderfittingModell ist zu simpel, um die Daten zu erfassen; schlechte Performance auf Training- und Testdaten.DropoutRegularisierungstechnik: während des Trainings werden zufällig Neuronen mit Wahrscheinlichkeit p deaktiviert («dropped out»), um Co-Adaptation zu verhindern.Data AugmentationKünstliche Vergrösserung des Trainingsdatensatzes durch zufällige Transformationen: geometrisch (Flip, Rotation, Crop), photometrisch (Helligkeit, Kontrast, Farbverschiebung), kontextuell (Cutout, Mixup).Early StoppingTraining wird beendet, wenn die Validation-Loss aufhört zu sinken, um Overfitting zu verhindern.Regularisierung (L2)Bestrafung grosser Gewichte im Loss-Term, um Overfitting zu reduzieren.Skip ConnectionDirektverbindung (Shortcut) zwischen nicht-benachbarten Schichten; ermöglicht den Gradienten, Schichten zu überspringen; zentrales Element von ResNet und U-Net.BottleneckSchicht mit sehr wenigen Kanälen/Neuronen in einer Encoder-Decoder-Architektur; zwingt das Netz zur Komprimierung der Information in eine kompakte Repräsentation.Transfer LearningNutzung eines auf einer Quellaufgabe vortrainierten Modells als Startpunkt für eine neue Zielaufgabe.Feature ExtractionForm des Transfer Learning, bei der der Backbone eingefroren wird und nur der neue Klassifikationskopf trainiert wird.Fine-TuningForm des Transfer Learning, bei der zusätzlich zu einem neuen Head auch Teile des vortrainierten Backbones mit einer kleinen Lernrate weitertrainiert werden.FreezingDas Einfrieren von Schichten (Gewichte werden nicht aktualisiert) während des Trainings; typisch bei Transfer Learning.ResNet (Residual Network)CNN-Architektur mit Skip Connections (Residual Connections), die das Vanishing-Gradient-Problem in sehr tiefen Netzen löst.GoogLeNet / InceptionCNN-Architektur, die Inception-Module mit parallelen Faltungsfiltern verschiedener Grössen verwendet.DenseNetCNN-Architektur, bei der jede Schicht mit allen vorherigen Schichten verbunden ist (Dense Connections), was Feature-Reuse fördert.U-NetEncoder-Decoder-CNN mit Skip Connections zwischen symmetrischen Schichten; ermöglicht hochauflösende Segmentierungsmasken; Standard in der medizinischen Bildverarbeitung.AutoencoderUnüberwacht trainiertes Netz mit Encoder-Bottleneck-Decoder-Struktur zum Lernen einer komprimierten Repräsentation der Eingabe. ---