Dialogsysteme & Sprachverarbeitung · T5

Architektur, Informationsbedarf, hybride Systeme & ethische Aspekte

Überblick

Behandelt die Architekturbescheidungen eines Conversational-AI-Systems (Channels, Frameworks, Integrationen) sowie die ethischen Herausforderungen von LLMs (Bias, Misinformation, Guardrails). Zentral ist das Konzept des Trustworthy Hybrid Dialog System.

Relevanz: Generische Architektur mit allen Komponenten beschreiben; hybrides NLG-Konzept (LLM-basiert vs. Template/FAQ) erklären; ethische Challenges (Bias, Datenvergiftung, Guardrail Deficiencies) benennen und einordnen.

Kernkonzepte

Generische Conversational AI Architektur (vollständig): Channel → Speech Recognition (optional) → NLU (Intent, Entities, Slots) → Dialogue Management (Context/State, Action Policy) → External Action & Integration (APIs, Knowledge Graphs, Databases) → NLG → Speech Synthesis (optional) → Channel.
Informationsbedarf bestimmen: Aus dem Conversational Design ableiten, welche Daten benötigt werden; relevante Fragen: Welche APIs? Gibt es ein Enterprise Repository oder Knowledge Graph? Kann Enterprise Search den Bedarf decken?
Trustworthy Hybrid Dialog System: Kombination aus LLM-basierter NLG für nicht-sensitive Antworten und Template/FAQ-basierter NLG für sensitive Inhalte; sichert Korrektheit bei kritischen Informationen.
LLM-only vs. Hybrides Dialogsystem: LLM-only: unstrukturierte Konversation, scheinbar geringe Anfangskosten, Risiko von Fehlinformationen; Hybrid: geführte Konversation, höhere Anfangskosten, korrekte und genehmigte Informationsübermittlung.
Bias in LLMs: LLMs verstärken Bias aus unausgewogenen Trainingsdaten (z.B. Common Crawl, Reddit, Wikipedia überrepräsentieren junge männliche westliche Perspektiven); führt zu verdecktem Rassismus (z.B. gegenüber AAE-Sprechenden) und Stereotypen.
Misinformation & Datenvergiftung: Bereits 0,001% gefälschte Trainingstoken können die Zuverlässigkeit eines LLMs erheblich schädigen; verfälschte Modelle bestehen Standard-Benchmarks und sind schwer zu erkennen.
Guardrail Deficiencies: LLMs können trotz Sicherheitsmassnahmen Off-Topic-Antworten, Policy-Verletzungen, Jailbreaks, adversariale Angriffe, Bias/Toxizität, schädliche Inhalte und faktische Fehler produzieren.
Reversal Curse: LLMs, die auf «A ist B» trainiert wurden, können nicht automatisch auf «B ist A» schliessen (bekanntes Logik-/Wissensproblem).
Make (No-Code-Automatisierung): Plattform für visuelle Workflow-Integration; nützlich für Chatbots via Webhooks (REST API), Data Stores und Google-Sheets-Integration; ehemals Integromat.

Fachwörter & Glossar

Enterprise Knowledge GraphStrukturiertes, unternehmensweites Daten-Repository, das semantische Zusammenhänge zwischen Entitäten abbildet; kann als Informationsquelle für Chatbots genutzt werden.
Enterprise SearchUnternehmensweite Suchinfrastruktur, über die ein Chatbot relevante Informationen aus internen Wissensquellen abrufen kann.
GuardrailSchutzmassnahme in einem LLM-System, die unerwünschte Ausgaben (Off-Topic, Policy-Verletzungen, Jailbreaks) verhindern soll.
JailbreakVersuch, durch manipulative Eingaben die Sicherheitsbeschränkungen eines LLMs zu umgehen und unerwünschte Ausgaben zu provozieren.
Adversarial AttackGezielte, manipulative Eingabe, die ein KI-Modell zu fehlerhaften oder schädlichen Ausgaben verleitet.
Datenvergiftung (Data Poisoning)Einschleusen von Fehlinformationen in Trainingsdaten, um das Verhalten eines LLMs zu manipulieren; bereits 0,001% korrumpierter Trainingstoken reichen für signifikante Auswirkungen.
Stochastic ParrotMetapher (Bender et al., 2021) für LLMs als Systeme, die statistische Muster reproduzieren, ohne Bedeutung zu verstehen, und dadurch Bias und Fehlinformationen verbreiten.
Make / IntegromatNo-Code-Automatisierungsplattform für visuelle Workflow-Integration; ermöglicht Chatbot-Datenspeicherung via Webhooks, Data Stores und externe Dienste.
WebhookHTTP-Callback-Mechanismus; ermöglicht es externen Diensten (z.B. Chatbots), Daten an Make oder andere Plattformen zu senden, sobald ein Ereignis eintritt. ---