Dialogsysteme & Sprachverarbeitung · T11

Topic Modeling

Überblick

Unüberwachte Methode zur automatischen Entdeckung latenter Themen in unstrukturierten Textmengen mittels Latent Dirichlet Allocation (LDA); umfasst Preprocessing-Pipeline, Hyperparameter-Wahl (Anzahl Topics), Evaluationsmetriken (Perplexity, Coherence) und menschliche Interpretation.

Relevanz: LDA-Algorithmus und seine Annahmen erklären; Hyperparameter (Anzahl Topics, Anzahl Wörter pro Topic) und deren Auswirkungen beschreiben; Evaluationsmetriken Perplexity und Coherence unterscheiden; Elbow-Methode kennen; Topic-Interpretation als kritischen Schritt einordnen.

Kernkonzepte
  • Unsupervised Text Mining: Eingabe: unstrukturierter Text; Ausgabe: Sammlung von Wörtern mit Gewichtungen; Lösung/Topics vorab unbekannt; erfordert menschliches Urteil für Interpretation und Finalisierung.
  • Topic Modeling – Anwendungsfälle: Customer Feedback («Was sagen Kunden?»), Market Research («Was machen Wettbewerber?»), Research/Literature Review («Was ist Stand der Technik?»), News Analysis («Was wird diskutiert?»).
  • Wann Topic Modeling einsetzen: Wenn man eine grobe Vorstellung hat, was im Content steckt, aber tiefer einsteigen möchte; wenn klar definierte Business Questions vorhanden sind.
  • Topic als Word Cluster: Ein Topic ist eine Sammlung von Wörtern, die einen gemeinsamen Kontext teilen; dasselbe Wort kann in mehreren Topics erscheinen, aber mit unterschiedlichem Gewicht.
  • LDA (Latent Dirichlet Allocation): Probabilistisches generatives Modell; Annahme: jedes Dokument in einer Kollektion entspricht mehreren abstrakten Topics mit einer bestimmten Wahrscheinlichkeit; Topics sind latent (versteckt) und werden aus der Wortverteilung interpretiert; jedes Topic hat ein spezifisches Gewicht pro Dokument.
  • LDA – Ausgabe: Probabilistische Verteilung von Topics über Dokumente UND probabilistische Verteilung von Wörtern über Topics; jedes Wort hat ein Gewicht (weight) pro Topic.
  • Hyperparameter – Anzahl Topics: Wenig Topics → nicht alle Themen entdeckt, Verlust von Information; Viele Topics → Topics nicht interpretierbar, irrelevante Wörter, erzwungene Topicerstellung; der Algorithmus weiss nicht, wann er stoppen soll.
  • Display-Parameter – Anzahl Wörter pro Topic: Beeinflusst die Interpretierbarkeit; pragmatisch bestimmen durch Beobachten der Topics; mit kleiner Zahl (z.B. 5) beginnen und bei Bedarf erhöhen.
  • Evaluationsmetrik – Perplexity: Misst, wie gut das Modell auf neuen Dokumenten performt; korreliert nicht zwingend mit menschlichem Urteil.
  • Evaluationsmetrik – Coherence: Misst den Grad der semantischen Ähnlichkeit zwischen Top-Wörtern eines Topics; näher an menschlicher Interpretation, da Kontext berücksichtigt wird; bevorzugte Metrik.
  • Elbow-Methode / Scree Plot: Grafische Methode zur optimalen Anzahl an Topics; Perplexity vs. Anzahl Topics plotten; «Knick» (Elbow) markiert den optimalen Wert.
  • Topic-Interpretation: Oft schwierigster Schritt; erfordert starkes Domänen- und Datenwissen; über Keywords hinaus: Quelldokumente analysieren, Wortbeziehungen untersuchen; inhärent subjektiv → Domänenexperten einbeziehen.
  • LDA vs. LLM für Topic Modeling: Klassisches LDA: iterativer, interpretierbarer Prozess; LLM-basiert: besser bei Kontext und Synonymen, funktioniert gut bei kleinen Korpora, aber hohe Rechenkosten, schwer skalierbar, potenzielle Black-Box-Interpretierbarkeit.
  • Preprocessing-Pipeline für Topic Modeling: Tokenize → Case Transform → Stop Words filtern → Tokens nach Länge filtern → Synonyme ersetzen → N-Gramme generieren → Bag of Words generieren → LDA-Topics generieren → Topics interpretieren.
Fachwörter & Glossar
  • LDA (Latent Dirichlet Allocation)Probabilistisches generatives Modell für Topic Modeling; nimmt an, dass jedes Dokument eine Mischung aus latenten Topics ist und jedes Topic eine Wortverteilung.
  • Latent TopicVerstecktes, abstraktes Thema in einem Dokument-Corpus; wird nicht direkt beobachtet, sondern aus der Wortverteilung abgeleitet.
  • Word WeightGewicht eines Wortes in einem Topic; gibt an, wie stark das Wort dieses Topic repräsentiert (z.B. «chef»: 0.085 in Food Topic).
  • PerplexityEvaluationsmetrik für LDA; misst die Modell-Güte auf ungesehenen Dokumenten; niedrigere Perplexity = besser, aber korreliert nicht immer mit menschlicher Topicqualität.
  • CoherenceEvaluationsmetrik für LDA; misst semantische Ähnlichkeit der Top-Wörter eines Topics; höherer Wert = besser; bevorzugte Metrik gegenüber Perplexity.
  • Elbow-MethodeGrafisches Verfahren zur Bestimmung der optimalen Anzahl von Clustern/Topics; Knick («Elbow») in der Perplexity-Kurve zeigt optimalen Hyperparameterwert.
  • N-GrammFolge von N aufeinanderfolgenden Tokens; Bi-Gramme (2) und Tri-Gramme (3) erfassen Mehrwort-Konzepte (z.B. «machine learning») im Topic Modeling.
  • Bag of WordsFür LDA: Dokumentrepräsentation als Wortfrequenz-Vektor ohne Berücksichtigung der Wortanordnung; Standard-Eingabe für LDA.
  • Topic InterpretationMenschlicher Prozess der Bedeutungszuweisung an einen Topic basierend auf seinen Top-Wörtern und den dazugehörigen Quelldokumenten; subjektiv und domänenabhängig.
  • Scree PlotLiniendiagramm, das Evaluationsmetriken (z.B. Perplexity oder Coherence) gegen die Anzahl Topics abbildet; dient zur visuellen Bestimmung des optimalen Hyperparameters.