Dialogsysteme & Sprachverarbeitung · T1

NLP Basics & Text Preprocessing

Überblick

Einführung in die Grundlagen der natürlichen Sprachverarbeitung (NLP), ihre Teilgebiete NLU und NLG sowie die zentralen Herausforderungen. Kernthema ist die Text-Preprocessing-Pipeline, die Texte in maschinenverarbeitbare Vektoren überführt.

Relevanz: Lernziele: Preprocessing-Techniken benennen, erklären und voneinander abgrenzen; Vektorisierungsansätze (BoW, TF-IDF, Word2Vec) kennen und ihre Grenzen verstehen.

Kernkonzepte
  • Natural Language Processing (NLP): Computerlinguistisches Feld, das menschliche Sprache für Maschinen verarbeitbar macht; umfasst NLU (Verstehen) und NLG (Generieren).
  • Natural Language Understanding (NLU): Teilbereich von NLP – menschliche Sprache wird in maschineninterpretierbare Form umgewandelt; umfasst Disambiguierung, Kontext- und Bedeutungserkennung.
  • Natural Language Generation (NLG): Teilbereich von NLP – Antworten werden in natürlicher Sprache generiert; beinhaltet Inhaltsplanung, Strukturierung und Textaggregation.
  • NLP-Herausforderungen: Lexikalische Ambiguität, Intonation/Sarkasmus, Multilingualität, kulturelle Ausdrücke/Idiome, Bias in Trainingsdaten und Low-Resource-Sprachen erschweren die Verarbeitung.
  • NLP-Preprocessing-Pipeline: Sequenz aus: Corpus erstellen → Preprocessing anwenden → als Vektoren repräsentieren → Algorithmus wählen, trainieren und evaluieren.
  • Preprocessing-Reihenfolge: Case Normalization → Tokenization → Stop Word/Punctuation Removal → Stemming/Lemmatization; Reihenfolge und Auswahl abhängig vom Task.
  • Case Normalization: Umwandlung des gesamten Textes in Klein- oder Grossschreibung; kann zu Informationsverlust führen (z.B. «Apple» Firma vs. «apple» Frucht).
  • Tokenization: Zerlegung von Text in kleinere Einheiten («Tokens»); Varianten: Word/Whitespace-Tokenizer, Sentence-Tokenizer, Regex-Tokenizer.
  • Out-of-Vocabulary (OOV) Problem: Traditionelle Tokenizer können unbekannte Wörter nicht verarbeiten, da diese nicht im Vokabular vorhanden sind.
  • Byte-Pair Encoding (BPE): Fortgeschrittene Subword-Tokenisierung; passt sich an Domänenvokabular an, wird in LLMs eingesetzt; Nachteil: ignoriert Wortkontext.
  • Stop Word Removal: Entfernung hochfrequenter, bedeutungsarmer Wörter (z.B. «the», «is»); reduziert Token-Anzahl, kann aber zu Informationsverlust führen.
  • Stemming: Regelbasiertes Abschneiden von Wort-Suffixen; das Ergebnis ist eine Annäherung, kein gültiges Wort (z.B. Porter Stemmer: «better» → «bett»); schneller.
  • Lemmatization: Sophistiziertere Normalisierung; reduziert Wortvarianten auf eine im Wörterbuch existierende Grundform; berücksichtigt Wortart (POS); genauer als Stemming.
  • Bag of Words (BoW): Vektorrerepräsentation eines Textes basierend auf Wortfrequenzen im Vokabular; ignoriert Reihenfolge und Kontext; erzeugt sparse Vektoren.
  • BoW-Grenzen: Kontext geht verloren, Wortbedeutung wird nicht verstanden, erzeugt sparse/hochdimensionale Vektoren mit teurer Berechnung.
  • TF-IDF (Term Frequency – Inverse Document Frequency): TF misst, wie oft ein Term in einem Dokument vorkommt; IDF bestraft Terme, die in vielen Dokumenten vorkommen; Kombination ergibt gewichtete Termrelevanz; besser als reines BoW.
  • Word Embeddings (Word2Vec, GloVe): Kontextberücksichtigende, dichte Vektorrepräsentationen; überwinden Grenzen von BoW und TF-IDF; tiefe neuronale Ansätze nutzen BPE.
Fachwörter & Glossar
  • CorpusSammlung von Textdokumenten, die als Eingabe für NLP-Algorithmen dienen.
  • TokenKleinste Einheit nach der Tokenisierung (Wort, Subwort oder Zeichen).
  • Sparse VectorVektor, bei dem der Grossteil der Einträge null ist; typisch für BoW bei grossem Vokabular.
  • Stemmer (Porter Stemmer)Regelbasierter Algorithmus zum Entfernen von Suffixen; liefert Wort-Approximation.
  • LemmaGrundform eines Wortes, wie sie im Wörterbuch zu finden ist (z.B. «run» für «runs», «ran», «running»).
  • TF (Term Frequency)Häufigkeit, mit der ein Begriff in einem einzelnen Dokument vorkommt; misst lokale Wichtigkeit.
  • IDF (Inverse Document Frequency)Logarithmisches Mass dafür, in wie wenigen Dokumenten ein Begriff vorkommt; bestraft häufige, bedeutungsarme Terme.
  • Word2VecNeuronales Einbettungsmodell, das Wörter auf Basis ihres Kontexts in dichte Vektoren überführt.
  • GloVeVektorrepräsentation aus globalen Wort-Kookkurrenzstatistiken; kontextberücksichtigende Alternative zu BoW. ---