Computer Vision · T11

Privatsphäre, Ethik und Robustheit

Überblick

Dieses Thema behandelt die Risiken und Verantwortlichkeiten beim Einsatz von Computer-Vision-Systemen in der Praxis: von Modellversagen durch Verteilungsverschiebung über Datenschutz bis zum EU AI Act.

Relevanz: Im Anwendungsteil der Prüfung wird typischerweise eine ethische/datenschutzrechtliche Reflexion für ein gegebenes Praxisszenario verlangt. Konkrete Massnahmen vorschlagen und begründen können ist zentral.

Kernkonzepte
  • Domain Shift (Verteilungsverschiebung): Das häufigste Versagen von CV-Modellen in der Praxis. Das Modell wurde auf Trainingsdaten einer anderen Verteilung trainiert als die Zieldomäne (z.B. synthetische Trainingsdaten, aber echte Deployment-Bedingungen). Gegenmassnahmen: Monitoring (Verteilung der Inputs überwachen), Retraining (Modell auf Zieldomäne nachtrainieren), Domain-spezifische Augmentation.
  • Adversarial Examples: Bilder, die für Menschen normal aussehen, aber durch minimale, gezielte Störungen (Perturbationen) ein Modell zur falschen Klassifikation bringen. In der Praxis oft fragiler als in der Forschung (kleine Rotationen, Kompression zerstören den Adversarial-Effekt).
  • Bias in CV-Datensätzen: Sampling-Bias (überrepräsentierte Gruppen im Datensatz), Annotation-Bias (subjektive oder fehlerhafte Annotationen), historische Bias (historische Ungleichheiten in Daten). Führt zu schlechter Modellperformance für unterrepräsentierte Gruppen.
  • Datenschutz-Grundprinzipien: Datenminimierung (nur notwendige Daten erheben), Zweckbindung (Daten nur für definierten Zweck verwenden), Einwilligung (informierte Zustimmung der betroffenen Personen). Bilder können personenbezogene Daten enthalten (Gesichter, Kennzeichen).
  • EU AI Act: Seit August 2024 in Kraft. Klassifiziert KI-Systeme nach Risiko. Hochrisiko-Bereiche mit CV-Bezug: biometrische Identifikation, Überwachung im öffentlichen Raum, kritische Infrastruktur, Bildung, Strafverfolgung. Für Hochrisiko-Systeme gelten strenge Anforderungen (Transparenz, Auditing, menschliche Aufsicht).
Fachwörter & Glossar
  • Domain Shift (Verteilungsverschiebung)Unterschied zwischen der statistischen Verteilung der Trainingsdaten und der Daten im Einsatz (Deployment); häufigste Ursache für Modellversagen in der Praxis.
  • Domain AdaptationTechniken zur Anpassung eines Modells von einer Quelldomäne (Training) an eine Zieldomäne (Deployment), um Domain Shift zu kompensieren.
  • Adversarial ExampleEingabebild, das durch kleine, für Menschen unsichtbare Störungen so manipuliert wurde, dass ein Modell es falsch klassifiziert.
  • Adversarial AttackMethode zur gezielten Erzeugung von Adversarial Examples, z.B. durch gradientenbasierte Optimierung der Störung (FGSM, PGD).
  • Adversarial TrainingVerteidigungsstrategie: Modell wird auf einer Mischung aus normalen und adversarialen Beispielen trainiert, um Robustheit zu erhöhen.
  • BiasSystematische Verzerrung in Daten oder Modellen, die zu unfairen oder falschen Ergebnissen für bestimmte Gruppen führt; entsteht durch Sampling, Annotation oder historische Ungleichheiten.
  • Sampling BiasVerzerrung im Datensatz, weil bestimmte Gruppen oder Szenarien über- oder unterrepräsentiert sind.
  • DatenminimierungDatenschutzprinzip, das vorschreibt, nur so viele personenbezogene Daten zu erheben wie für den Zweck unbedingt nötig.
  • ZweckbindungDatenschutzprinzip, das verbietet, erhobene Daten für andere Zwecke zu verwenden als den ursprünglich festgelegten.
  • Personenbezogene DatenDaten, die eine natürliche Person direkt oder indirekt identifizieren (z.B. Gesichtsbilder, Kennzeichen, Ganganalyse).
  • revDSGRevidiertes Schweizer Datenschutzgesetz, in Kraft seit 1.9.2023; verlangt Privacy by Design/Default; biometrische Daten zur Identifikation sind «besonders schützenswert».
  • DSGVODatenschutz-Grundverordnung der EU; gilt auch für die Verarbeitung von Daten von EU-Bürgerinnen aus der Schweiz; biometrische Identifikationsdaten grundsätzlich verboten (mit engen Ausnahmen, Art. 9).
  • EU AI ActEU-Regulierung für KI-Systeme (in Kraft seit August 2024); teilt KI in Risikoklassen ein; Hochrisiko-CV-Bereiche: biometrische Identifikation, kritische Infrastruktur, Überwachung.
  • Privacy by DesignDatenschutzprinzip: Datenschutz wird von Anfang an in die Systemarchitektur eingebaut, nicht erst nachträglich.
  • MonitoringKontinuierliche Überwachung eines deployed Modells auf Verteilungsverschiebungen, Fehler oder Performance-Abfall; erste Verteidigungslinie gegen Domain Shift.
  • Data PoisoningAngriff auf den Trainingsprozess: Manipulierte Datenpunkte werden in den Trainingsdatensatz eingeschleust, um das Modellverhalten gezielt zu beeinflussen.