Dialogsysteme & Sprachverarbeitung · T2

Natural Language Understanding (NLU)

Überblick

Vertiefung der NLU-Komponente für Dialogsysteme: Intent-Klassifikation und Entity-Extraktion sind die zwei Kerntasks. Ergänzt wird dies durch POS-Tagging, Named Entity Recognition und Feature-Repräsentationstechniken.

Relevanz: Lernziele: POS-Tagging und NER erklären; Intent-Klassifikation und Entity-Extraktion als zentrale NLU-Tasks in Dialogsystemen beschreiben; Preprocessing-Schritte für NLU-Pipelines kennen.

Kernkonzepte
  • NLU im Dialogsystem: Verarbeitet eingehende Textnachrichten; identifiziert Intent (Absicht) und extrahiert Entities (Schlüsselwörter); Ergebnis bildet die semantische Eingabe für das Dialogue Management.
  • Intent Recognition/Classification: Klassifizierungsaufgabe – bestimmt die allgemeine Absicht einer Nutzeräusserung (z.B. «Flug buchen», «Wetter abfragen»); mehrklassige oder Multi-Label-Klassifikation möglich.
  • Entity Extraction: Extraktion von bedeutungstragenden Schlüsselwörtern aus dem Text; unterschieden in allgemeine Entities (Personen, Orte, Daten), domänenspezifische Entities (z.B. Pizzasorte, Versicherungsprodukt) und spezielle/versteckte Entities (Sentiments, Emotionen).
  • Part-of-Speech (POS) Tagging: Identifiziert Wortarten (Nomen, Adjektiv, Verb, Präposition etc.) basierend auf dem Penn-Treebank-Tagset; Vorverarbeitungsschritt für NER.
  • Named Entity Recognition (NER): Erkennt Eigennamen (Personen, Organisationen, Orte) im Text; benötigt nur Nomen (andere POS werden herausgefiltert); nutzt vortrainierte Modelle (OntoNotes 5 Tags); Grundlage für Entity Extraction.
  • Feature Representation für NLU: Texte werden in mathematische Vektoren überführt; Techniken: Bag of Words, TF-IDF, Word Embeddings (Word2Vec, GloVe, BERT, RoBERTa).
  • Multiclass vs. Multilabel Classification: Multiclass: jedes Beispiel gehört genau einer Klasse; Multilabel: ein Beispiel kann mehreren Klassen gleichzeitig angehören (relevant für Intent-Klassifikation mit überlappenden Absichten).
  • Preprocessing für NLU-Pipeline: Stop Word Removal zur Reduktion auf bedeutungsvolle Tokens (z.B. «would like to order» → «order big pizza»); danach Feature Representation und Klassifikation.
Fachwörter & Glossar
  • IntentDie Absicht oder das Ziel hinter einer Nutzeräusserung in einem Dialogsystem (z.B. «Flug buchen», «Bestellung aufgeben»).
  • EntitySchlüsselbegriff in einer Äusserung, der spezifische Informationen trägt (z.B. Personenname, Datum, Produktname).
  • POS-TagLabel zur Kennzeichnung der Wortart eines Tokens, basierend auf dem Penn-Treebank-Tagset (z.B. NN = Noun singular, VBZ = Verb 3rd person present, JJ = Adjective).
  • NER (Named Entity Recognition)ML-basiertes Verfahren zur automatischen Erkennung und Klassifikation von Eigennamen in Text; nutzt OntoNotes-5-Tagset.
  • BERTBidirektionales Transformer-Modell (Bidirectional Encoder Representations from Transformers); liefert kontextabhängige Worteinbettungen; State-of-the-Art für NLU-Tasks.
  • RoBERTaOptimierte Variante von BERT mit robusterer Trainingsstruktur; ebenfalls für Feature Representation in NLU verwendet.
  • Penn Treebank TagsetStandardisiertes Set von POS-Tags für das Englische, u.a. DT (Determiner), JJ (Adjective), NN (Noun), VBZ (Verb 3rd sg. present), IN (Preposition).
  • OntoNotes 5Annotierter Datensatz und Tagset für NER; definiert Entitätskategorien wie PERSON, ORG, GPE (geopolitische Einheit), DATE etc. ---