Einführung in die Grundlagen der natürlichen Sprachverarbeitung (NLP), ihre Teilgebiete NLU und NLG sowie die zentralen Herausforderungen. Kernthema ist die Text-Preprocessing-Pipeline, die Texte in maschinenverarbeitbare Vektoren überführt.
Relevanz: Lernziele: Preprocessing-Techniken benennen, erklären und voneinander abgrenzen; Vektorisierungsansätze (BoW, TF-IDF, Word2Vec) kennen und ihre Grenzen verstehen.
CorpusSammlung von Textdokumenten, die als Eingabe für NLP-Algorithmen dienen.TokenKleinste Einheit nach der Tokenisierung (Wort, Subwort oder Zeichen).Sparse VectorVektor, bei dem der Grossteil der Einträge null ist; typisch für BoW bei grossem Vokabular.Stemmer (Porter Stemmer)Regelbasierter Algorithmus zum Entfernen von Suffixen; liefert Wort-Approximation.LemmaGrundform eines Wortes, wie sie im Wörterbuch zu finden ist (z.B. «run» für «runs», «ran», «running»).TF (Term Frequency)Häufigkeit, mit der ein Begriff in einem einzelnen Dokument vorkommt; misst lokale Wichtigkeit.IDF (Inverse Document Frequency)Logarithmisches Mass dafür, in wie wenigen Dokumenten ein Begriff vorkommt; bestraft häufige, bedeutungsarme Terme.Word2VecNeuronales Einbettungsmodell, das Wörter auf Basis ihres Kontexts in dichte Vektoren überführt.GloVeVektorrepräsentation aus globalen Wort-Kookkurrenzstatistiken; kontextberücksichtigende Alternative zu BoW. ---