Dialogsysteme & Sprachverarbeitung · T9

Sentiment Analysis & PII Detection

Überblick

Erkennung von Stimmungen (Sentiment Analysis) und personenbezogener Daten (PII Detection) in Texten; Methoden von Regex über NER bis zu hybriden Ansätzen; datenschutzrechtliche Grundlagen (GDPR) und Evaluationsmetriken (Precision, Recall, F1, F-Beta).

Relevanz: PII-Erkennungsansätze (regelbasiert, NER, hybrid) vergleichen; Precision, Recall, F1 und F-Beta-Score berechnen und im PII-Kontext interpretieren; Rolle von Microsoft Presidio erklären; GDPR-Datenminimierungsprinzip kennen.

Kernkonzepte
  • PII (Personally Identifiable Information): Personenbezogene Daten, die eine natürliche Person direkt oder indirekt identifizieren (z.B. Name, IBAN, E-Mail, Telefonnummer, Gesundheitsdaten).
  • GDPR – Datenminimierung (Art. 5 Abs. 1 lit. c): Personenbezogene Daten müssen dem Zweck angemessen, erheblich und auf das notwendige Mass beschränkt sein; Nebenbei anfallende, nicht zweckgerechte Daten müssen anonymisiert werden.
  • PII-Erkennung – Regelbasiert (Regex): Pattern-Matching mit regulären Ausdrücken; schnell, deterministisch, transparent; aber: Falsch-Positive, kein Kontext, sprachabhängig; Beispiel: IBAN, E-Mail, Telefonnummer.
  • PII-Erkennung – NER (ML/DL): Trainiertes Modell erkennt Entitäten kontextsensitiv; generalisiert auf unbekannte Werte; benötigt Trainingsdaten; Schwäche: Black Box, sprach-/domänenabhängig; Beispiel: Personennamen, Organisationen, Orte.
  • PII-Erkennung – Hybrid (Regex + NER + Kontextregeln): Kombination aller Ansätze; hoher Recall und hohe Präzision; komplex in Wartung; Standard-Ansatz in Microsoft Presidio.
  • Microsoft Presidio: Open-Source-Framework von Microsoft zur Erkennung und Anonymisierung von PII in Text und Bildern; unterstützt regelbasierte (PatternRecognizer), NER-basierte (SpacyRecognizer, TransformersRecognizer) und hybride (ContextAwareEnhancer) Erkennungskomponenten.
  • Precision: TP / (TP + FP) – Anteil der korrekt als PII klassifizierten Treffer an allen vorhergesagten PII; misst Präzision.
  • Recall: TP / (TP + FN) – Anteil der korrekt erkannten PII an allen tatsächlich vorhandenen PII; im PII-Kontext die kritischere Metrik (ein nicht erkannter Name = Datenschutzverletzung).
  • F1-Score: Harmonisches Mittel aus Precision und Recall; gewichtet beide gleich; Formel: 2·P·R / (P+R).
  • F-Beta-Score (F2): Verallgemeinerter F-Score mit Parameter β; bei β=2 wird Recall stärker gewichtet als Precision; empfohlen für PII-Erkennung, da übersehene PII teurer ist als Fehlalarme.
  • Recall-Priorisierung im PII-Kontext: Lieber ein Wort zu viel maskieren als eines zu wenig; Schwellenwerte so wählen, dass Recall maximiert wird; Presidio empfiehlt F2-Score.
Fachwörter & Glossar
  • PII (Personally Identifiable Information)Personenbezogene Daten, die eine Person direkt oder indirekt identifizieren; unterliegen dem Datenschutz (GDPR).
  • AnonymisierungIrreversibles Entfernen oder Verändern von PII, sodass die betroffene Person nicht mehr identifizierbar ist.
  • PrecisionTP / (TP + FP) – Wie viele der als PII markierten Treffer sind tatsächlich PII?
  • RecallTP / (TP + FN) – Wie viel der tatsächlich vorhandenen PII wurde gefunden? Im PII-Kontext kritischste Metrik.
  • F1-ScoreHarmonisches Mittel aus Precision und Recall; 2·P·R / (P+R); bewertet Precision und Recall gleichwertig.
  • F-Beta-ScoreVerallgemeinerter F-Score; bei β > 1 wird Recall höher gewichtet; Standard in PII-Erkennung ist β=2 (F2-Score).
  • False Negative (FN)Tatsächliche PII, die vom Detektor nicht erkannt wurde; entspricht einer Datenschutzverletzung.
  • False Positive (FP)Nicht-PII, die fälschlicherweise als PII markiert wurde; beeinträchtigt Lesbarkeit, aber kein Datenschutzproblem.
  • Microsoft PresidioOpen-Source-PII-Erkennungs- und Anonymisierungs-Framework; kombiniert Regex (PatternRecognizer), NER (SpacyRecognizer) und Kontextregeln (ContextAwareEnhancer).
  • PatternRecognizerPresidio-Komponente für regelbasierte PII-Erkennung via Regex + Prüfsummen und Kontext-Wörter.
  • SpacyRecognizer / TransformersRecognizerPresidio-Komponenten für ML/DL-basierte NER-Erkennung.
  • ContextAwareEnhancerPresidio-Komponente, die NER-Ergebnisse durch Kontextregeln verfeinert (z.B. LemmaContextAwareEnhancer).
  • GDPR (General Data Protection Regulation)EU-Datenschutzgrundverordnung; Art. 5 Abs. 1 lit. c definiert Datenminimierung als Grundprinzip.
  • DatenminimierungGDPR-Grundsatz (Art. 5 Abs. 1 lit. c): nur dem Zweck angemessene Daten verarbeiten; nicht zweckgerechte Daten müssen anonymisiert werden. ---