Unüberwachte Methode zur automatischen Entdeckung latenter Themen in unstrukturierten Textmengen mittels Latent Dirichlet Allocation (LDA); umfasst Preprocessing-Pipeline, Hyperparameter-Wahl (Anzahl Topics), Evaluationsmetriken (Perplexity, Coherence) und menschliche Interpretation.
Relevanz: LDA-Algorithmus und seine Annahmen erklären; Hyperparameter (Anzahl Topics, Anzahl Wörter pro Topic) und deren Auswirkungen beschreiben; Evaluationsmetriken Perplexity und Coherence unterscheiden; Elbow-Methode kennen; Topic-Interpretation als kritischen Schritt einordnen.
LDA (Latent Dirichlet Allocation)Probabilistisches generatives Modell für Topic Modeling; nimmt an, dass jedes Dokument eine Mischung aus latenten Topics ist und jedes Topic eine Wortverteilung.Latent TopicVerstecktes, abstraktes Thema in einem Dokument-Corpus; wird nicht direkt beobachtet, sondern aus der Wortverteilung abgeleitet.Word WeightGewicht eines Wortes in einem Topic; gibt an, wie stark das Wort dieses Topic repräsentiert (z.B. «chef»: 0.085 in Food Topic).PerplexityEvaluationsmetrik für LDA; misst die Modell-Güte auf ungesehenen Dokumenten; niedrigere Perplexity = besser, aber korreliert nicht immer mit menschlicher Topicqualität.CoherenceEvaluationsmetrik für LDA; misst semantische Ähnlichkeit der Top-Wörter eines Topics; höherer Wert = besser; bevorzugte Metrik gegenüber Perplexity.Elbow-MethodeGrafisches Verfahren zur Bestimmung der optimalen Anzahl von Clustern/Topics; Knick («Elbow») in der Perplexity-Kurve zeigt optimalen Hyperparameterwert.N-GrammFolge von N aufeinanderfolgenden Tokens; Bi-Gramme (2) und Tri-Gramme (3) erfassen Mehrwort-Konzepte (z.B. «machine learning») im Topic Modeling.Bag of WordsFür LDA: Dokumentrepräsentation als Wortfrequenz-Vektor ohne Berücksichtigung der Wortanordnung; Standard-Eingabe für LDA.Topic InterpretationMenschlicher Prozess der Bedeutungszuweisung an einen Topic basierend auf seinen Top-Wörtern und den dazugehörigen Quelldokumenten; subjektiv und domänenabhängig.Scree PlotLiniendiagramm, das Evaluationsmetriken (z.B. Perplexity oder Coherence) gegen die Anzahl Topics abbildet; dient zur visuellen Bestimmung des optimalen Hyperparameters.