Erkennung von Stimmungen (Sentiment Analysis) und personenbezogener Daten (PII Detection) in Texten; Methoden von Regex über NER bis zu hybriden Ansätzen; datenschutzrechtliche Grundlagen (GDPR) und Evaluationsmetriken (Precision, Recall, F1, F-Beta).
Relevanz: PII-Erkennungsansätze (regelbasiert, NER, hybrid) vergleichen; Precision, Recall, F1 und F-Beta-Score berechnen und im PII-Kontext interpretieren; Rolle von Microsoft Presidio erklären; GDPR-Datenminimierungsprinzip kennen.
PII (Personally Identifiable Information)Personenbezogene Daten, die eine Person direkt oder indirekt identifizieren; unterliegen dem Datenschutz (GDPR).AnonymisierungIrreversibles Entfernen oder Verändern von PII, sodass die betroffene Person nicht mehr identifizierbar ist.PrecisionTP / (TP + FP) – Wie viele der als PII markierten Treffer sind tatsächlich PII?RecallTP / (TP + FN) – Wie viel der tatsächlich vorhandenen PII wurde gefunden? Im PII-Kontext kritischste Metrik.F1-ScoreHarmonisches Mittel aus Precision und Recall; 2·P·R / (P+R); bewertet Precision und Recall gleichwertig.F-Beta-ScoreVerallgemeinerter F-Score; bei β > 1 wird Recall höher gewichtet; Standard in PII-Erkennung ist β=2 (F2-Score).False Negative (FN)Tatsächliche PII, die vom Detektor nicht erkannt wurde; entspricht einer Datenschutzverletzung.False Positive (FP)Nicht-PII, die fälschlicherweise als PII markiert wurde; beeinträchtigt Lesbarkeit, aber kein Datenschutzproblem.Microsoft PresidioOpen-Source-PII-Erkennungs- und Anonymisierungs-Framework; kombiniert Regex (PatternRecognizer), NER (SpacyRecognizer) und Kontextregeln (ContextAwareEnhancer).PatternRecognizerPresidio-Komponente für regelbasierte PII-Erkennung via Regex + Prüfsummen und Kontext-Wörter.SpacyRecognizer / TransformersRecognizerPresidio-Komponenten für ML/DL-basierte NER-Erkennung.ContextAwareEnhancerPresidio-Komponente, die NER-Ergebnisse durch Kontextregeln verfeinert (z.B. LemmaContextAwareEnhancer).GDPR (General Data Protection Regulation)EU-Datenschutzgrundverordnung; Art. 5 Abs. 1 lit. c definiert Datenminimierung als Grundprinzip.DatenminimierungGDPR-Grundsatz (Art. 5 Abs. 1 lit. c): nur dem Zweck angemessene Daten verarbeiten; nicht zweckgerechte Daten müssen anonymisiert werden. ---