Dialogsysteme & Sprachverarbeitung · T11

Topic Modeling

Überblick

Unüberwachte Methode zur automatischen Entdeckung latenter Themen in unstrukturierten Textmengen mittels Latent Dirichlet Allocation (LDA); umfasst Preprocessing-Pipeline, Hyperparameter-Wahl (Anzahl Topics), Evaluationsmetriken (Perplexity, Coherence) und menschliche Interpretation.

Relevanz: LDA-Algorithmus und seine Annahmen erklären; Hyperparameter (Anzahl Topics, Anzahl Wörter pro Topic) und deren Auswirkungen beschreiben; Evaluationsmetriken Perplexity und Coherence unterscheiden; Elbow-Methode kennen; Topic-Interpretation als kritischen Schritt einordnen.

Kernkonzepte

Unsupervised Text Mining: Eingabe: unstrukturierter Text; Ausgabe: Sammlung von Wörtern mit Gewichtungen; Lösung/Topics vorab unbekannt; erfordert menschliches Urteil für Interpretation und Finalisierung.
Topic Modeling – Anwendungsfälle: Customer Feedback («Was sagen Kunden?»), Market Research («Was machen Wettbewerber?»), Research/Literature Review («Was ist Stand der Technik?»), News Analysis («Was wird diskutiert?»).
Wann Topic Modeling einsetzen: Wenn man eine grobe Vorstellung hat, was im Content steckt, aber tiefer einsteigen möchte; wenn klar definierte Business Questions vorhanden sind.
Topic als Word Cluster: Ein Topic ist eine Sammlung von Wörtern, die einen gemeinsamen Kontext teilen; dasselbe Wort kann in mehreren Topics erscheinen, aber mit unterschiedlichem Gewicht.
LDA (Latent Dirichlet Allocation): Probabilistisches generatives Modell; Annahme: jedes Dokument in einer Kollektion entspricht mehreren abstrakten Topics mit einer bestimmten Wahrscheinlichkeit; Topics sind latent (versteckt) und werden aus der Wortverteilung interpretiert; jedes Topic hat ein spezifisches Gewicht pro Dokument.
LDA – Ausgabe: Probabilistische Verteilung von Topics über Dokumente UND probabilistische Verteilung von Wörtern über Topics; jedes Wort hat ein Gewicht (weight) pro Topic.
Hyperparameter – Anzahl Topics: Wenig Topics → nicht alle Themen entdeckt, Verlust von Information; Viele Topics → Topics nicht interpretierbar, irrelevante Wörter, erzwungene Topicerstellung; der Algorithmus weiss nicht, wann er stoppen soll.
Display-Parameter – Anzahl Wörter pro Topic: Beeinflusst die Interpretierbarkeit; pragmatisch bestimmen durch Beobachten der Topics; mit kleiner Zahl (z.B. 5) beginnen und bei Bedarf erhöhen.
Evaluationsmetrik – Perplexity: Misst, wie gut das Modell auf neuen Dokumenten performt; korreliert nicht zwingend mit menschlichem Urteil.
Evaluationsmetrik – Coherence: Misst den Grad der semantischen Ähnlichkeit zwischen Top-Wörtern eines Topics; näher an menschlicher Interpretation, da Kontext berücksichtigt wird; bevorzugte Metrik.
Elbow-Methode / Scree Plot: Grafische Methode zur optimalen Anzahl an Topics; Perplexity vs. Anzahl Topics plotten; «Knick» (Elbow) markiert den optimalen Wert.
Topic-Interpretation: Oft schwierigster Schritt; erfordert starkes Domänen- und Datenwissen; über Keywords hinaus: Quelldokumente analysieren, Wortbeziehungen untersuchen; inhärent subjektiv → Domänenexperten einbeziehen.
LDA vs. LLM für Topic Modeling: Klassisches LDA: iterativer, interpretierbarer Prozess; LLM-basiert: besser bei Kontext und Synonymen, funktioniert gut bei kleinen Korpora, aber hohe Rechenkosten, schwer skalierbar, potenzielle Black-Box-Interpretierbarkeit.
Preprocessing-Pipeline für Topic Modeling: Tokenize → Case Transform → Stop Words filtern → Tokens nach Länge filtern → Synonyme ersetzen → N-Gramme generieren → Bag of Words generieren → LDA-Topics generieren → Topics interpretieren.

Fachwörter & Glossar

LDA (Latent Dirichlet Allocation)Probabilistisches generatives Modell für Topic Modeling; nimmt an, dass jedes Dokument eine Mischung aus latenten Topics ist und jedes Topic eine Wortverteilung.
Latent TopicVerstecktes, abstraktes Thema in einem Dokument-Corpus; wird nicht direkt beobachtet, sondern aus der Wortverteilung abgeleitet.
Word WeightGewicht eines Wortes in einem Topic; gibt an, wie stark das Wort dieses Topic repräsentiert (z.B. «chef»: 0.085 in Food Topic).
PerplexityEvaluationsmetrik für LDA; misst die Modell-Güte auf ungesehenen Dokumenten; niedrigere Perplexity = besser, aber korreliert nicht immer mit menschlicher Topicqualität.
CoherenceEvaluationsmetrik für LDA; misst semantische Ähnlichkeit der Top-Wörter eines Topics; höherer Wert = besser; bevorzugte Metrik gegenüber Perplexity.
Elbow-MethodeGrafisches Verfahren zur Bestimmung der optimalen Anzahl von Clustern/Topics; Knick («Elbow») in der Perplexity-Kurve zeigt optimalen Hyperparameterwert.
N-GrammFolge von N aufeinanderfolgenden Tokens; Bi-Gramme (2) und Tri-Gramme (3) erfassen Mehrwort-Konzepte (z.B. «machine learning») im Topic Modeling.
Bag of WordsFür LDA: Dokumentrepräsentation als Wortfrequenz-Vektor ohne Berücksichtigung der Wortanordnung; Standard-Eingabe für LDA.
Topic InterpretationMenschlicher Prozess der Bedeutungszuweisung an einen Topic basierend auf seinen Top-Wörtern und den dazugehörigen Quelldokumenten; subjektiv und domänenabhängig.
Scree PlotLiniendiagramm, das Evaluationsmetriken (z.B. Perplexity oder Coherence) gegen die Anzahl Topics abbildet; dient zur visuellen Bestimmung des optimalen Hyperparameters.