Dialogsysteme & Sprachverarbeitung · T2

Natural Language Understanding (NLU)

Überblick

Vertiefung der NLU-Komponente für Dialogsysteme: Intent-Klassifikation und Entity-Extraktion sind die zwei Kerntasks. Ergänzt wird dies durch POS-Tagging, Named Entity Recognition und Feature-Repräsentationstechniken.

Relevanz: Lernziele: POS-Tagging und NER erklären; Intent-Klassifikation und Entity-Extraktion als zentrale NLU-Tasks in Dialogsystemen beschreiben; Preprocessing-Schritte für NLU-Pipelines kennen.

Kernkonzepte

NLU im Dialogsystem: Verarbeitet eingehende Textnachrichten; identifiziert Intent (Absicht) und extrahiert Entities (Schlüsselwörter); Ergebnis bildet die semantische Eingabe für das Dialogue Management.
Intent Recognition/Classification: Klassifizierungsaufgabe – bestimmt die allgemeine Absicht einer Nutzeräusserung (z.B. «Flug buchen», «Wetter abfragen»); mehrklassige oder Multi-Label-Klassifikation möglich.
Entity Extraction: Extraktion von bedeutungstragenden Schlüsselwörtern aus dem Text; unterschieden in allgemeine Entities (Personen, Orte, Daten), domänenspezifische Entities (z.B. Pizzasorte, Versicherungsprodukt) und spezielle/versteckte Entities (Sentiments, Emotionen).
Part-of-Speech (POS) Tagging: Identifiziert Wortarten (Nomen, Adjektiv, Verb, Präposition etc.) basierend auf dem Penn-Treebank-Tagset; Vorverarbeitungsschritt für NER.
Named Entity Recognition (NER): Erkennt Eigennamen (Personen, Organisationen, Orte) im Text; benötigt nur Nomen (andere POS werden herausgefiltert); nutzt vortrainierte Modelle (OntoNotes 5 Tags); Grundlage für Entity Extraction.
Feature Representation für NLU: Texte werden in mathematische Vektoren überführt; Techniken: Bag of Words, TF-IDF, Word Embeddings (Word2Vec, GloVe, BERT, RoBERTa).
Multiclass vs. Multilabel Classification: Multiclass: jedes Beispiel gehört genau einer Klasse; Multilabel: ein Beispiel kann mehreren Klassen gleichzeitig angehören (relevant für Intent-Klassifikation mit überlappenden Absichten).
Preprocessing für NLU-Pipeline: Stop Word Removal zur Reduktion auf bedeutungsvolle Tokens (z.B. «would like to order» → «order big pizza»); danach Feature Representation und Klassifikation.

Fachwörter & Glossar

IntentDie Absicht oder das Ziel hinter einer Nutzeräusserung in einem Dialogsystem (z.B. «Flug buchen», «Bestellung aufgeben»).
EntitySchlüsselbegriff in einer Äusserung, der spezifische Informationen trägt (z.B. Personenname, Datum, Produktname).
POS-TagLabel zur Kennzeichnung der Wortart eines Tokens, basierend auf dem Penn-Treebank-Tagset (z.B. NN = Noun singular, VBZ = Verb 3rd person present, JJ = Adjective).
NER (Named Entity Recognition)ML-basiertes Verfahren zur automatischen Erkennung und Klassifikation von Eigennamen in Text; nutzt OntoNotes-5-Tagset.
BERTBidirektionales Transformer-Modell (Bidirectional Encoder Representations from Transformers); liefert kontextabhängige Worteinbettungen; State-of-the-Art für NLU-Tasks.
RoBERTaOptimierte Variante von BERT mit robusterer Trainingsstruktur; ebenfalls für Feature Representation in NLU verwendet.
Penn Treebank TagsetStandardisiertes Set von POS-Tags für das Englische, u.a. DT (Determiner), JJ (Adjective), NN (Noun), VBZ (Verb 3rd sg. present), IN (Preposition).
OntoNotes 5Annotierter Datensatz und Tagset für NER; definiert Entitätskategorien wie PERSON, ORG, GPE (geopolitische Einheit), DATE etc. ---