Neues Altern in der Stadt - in Bruchsal
Hier ist Dein Portal: Gesund Altern in der Stadt

Wie sicher bist Du? Halluzinationen!

2. November 2025. Ein Begriff geistert durch die KI-Gemeinde: Halluzinieren. Es hat nichts mit Wahnvorstellungen zu tun, sondern basiert auf dem der KI zugrundeliegenden Sprachmodell - Large Language Model. Es ist eine Tatsache: Das Internet beruht auf unendlich vielen Einträgen, von denen einige nicht mehr aktuell sind, aber bei der Recherche immer noch zur Verfügung stehen. Wenn der Chatbot diese Einträge zurate zieht, die vielleicht schon längst überholt sind, dann verkündet er das als immer noch unumstößliche Wahrheit, mit dem Brusttone der Überzeugung! Hier werden Dir die Zusammenhänge erklärt.

Halluzinationen von Chatbots — was ist das, warum passiert es und wie gehst Du damit um?

Chatbots und moderne Sprachmodelle (häufig „LLMs“ genannt) können oft sehr überzeugend und kompetent klingen. Gleichzeitig liefern sie gelegentlich falsche, irreführende oder frei erfundene Informationen — sogenannte Halluzinationen. In diesem Artikel erkläre ich in klaren Worten, warum das geschieht, wo die größten Risiken liegen, welche Mittel es dagegen gibt und wie insbesondere das Gesundheitswesen damit umgeht.

Was bedeutet „halluzinieren“ bei Chatbots?

Eine Halluzination liegt vor, wenn ein Modell eine Aussage trifft, die faktisch falsch, unbelegt oder frei erfunden ist — zum Beispiel ein nicht existierendes Zitat, ein falsches Datum oder eine erfundene Studie. Wichtig: Das ist meist keine böse Absicht oder Betrug, sondern eine Folge davon, wie diese Systeme gebaut sind. Sie schreiben Wahrscheinlichkeiten für Wortfolgen — nicht Wahrheitswerte.

Warum halluzinieren Sprachmodelle?

Kurz gesagt: Sprachmodelle werden so trainiert, dass sie sinnvoll weiter texten. Sie lernen Muster und Gemeinsamkeiten in riesigen Textmengen. Wenn Informationen lückenhaft sind, widersprüchlich oder schlicht nicht vorhanden, „füllt“ das Modell die Lücke mit einer plausiblen, aber nicht unbedingt wahren Antwort. Technische Einflussfaktoren sind u. a. die Trainingsdaten, Modellarchitektur und die Art der Textgenerierung.

In welchen Bereichen ist die Gefahr besonders groß?

Generell gilt: Je seltener, spezifischer oder neuer die Information, desto größer das Risiko einer Halluzination. Typische Risikobereiche:

Aktuelle Ereignisse (alles nach dem Wissensstand des Modells)
Spezialisierte Fachfragen (komplexe medizinische, juristische, technische Details)
Exakte historische Datumsangaben, Primärquellen, Zitate
Lokale, persönliche oder wenig dokumentierte Fakten
Niedrig-resourced Sprachen und Randkulturen

Welche Folgen können Halluzinationen haben?

Die Folgen reichen von harmlosen Missverständnissen bis zu ernsten Schäden: falsche medizinische Empfehlungen, fehlerhafte juristische Hinweise, Falschinformationen in journalistischen Texten oder irreführende Archivdaten in historischen Recherchen. Vor allem dort, wo Entscheidungen direktes menschliches Wohlbefinden betreffen (Medizin, Pflege), ist besondere Vorsicht geboten.

Was kannst Du als Nutzer*in tun? — praktische Checkliste

Fordere Quellen an: Lass Dir Herkunftsangaben, Studien oder Zitate nennen.
Prüfe die Quellen selbst: Öffne das Originaldokument — nicht nur die Chat-Antwort.
Cross-Check: Vergleiche mindestens zwei unabhängige, seriöse Quellen.
Human-in-the-loop: Bei Medizin, Recht, Finanzen nur in Absprache mit einer Fachperson handeln.
Misstraue absoluten Formulierungen: Wörter wie „immer“ oder „niemals“ sind oft Signalwörter für unsichere Antworten.

Technische Mittel gegen Halluzinationen

Retrieval-Augmented Generation (RAG): das Modell greift auf geprüfte Dokumente zu und bezieht sich konkret auf Textstellen — dadurch sinkt die Wahrscheinlichkeit, dass Informationen frei erfunden werden.
Quellenangaben / Inline-Zitate: Viele Tools zeigen, woher Teile der Antwort stammen; das erleichtert Kontrolle und Transparenz.
Domänenspezifische Feinabstimmung: Medizinische oder juristische Modelle werden auf kuratierten Daten trainiert und streng getestet.
Verifikations-Module: Sekundäre Modelle oder Fact-Checking-Pipelines überprüfen Behauptungen automatisch gegen Wissensdatenbanken.

NotebookLM: Ist das ein geeignetes Werkzeug?

NotebookLM (ein Google-Tool) zielt ausdrücklich auf Recherche und Notizen ab und nutzt Retrieval-Techniken sowie Quellenangaben. Das macht es zu einem nützlichen Hilfsmittel — gerade für das strukturierte Arbeiten mit Dokumenten. Allerdings ist auch hier Vorsicht geboten: automatische Zusammenfassungen und die „Discover“-Funktionen müssen geprüft werden, weil auch Quellen falsch zusammengefasst oder unzuverlässig sein können. NotebookLM reduziert Risiken, eliminiert sie aber nicht.

Wie geht das Gesundheitswesen mit dem Problem um?

Es kommen spezialisierte, klinisch validierte Systeme oder Retrieval-gestützte Werkzeuge zum Einsatz.
Viele Anwendungen sind auf administrative Tätigkeiten, Patienteninformation oder Literaturrecherche beschränkt — nicht auf automatische Diagnosen ohne menschliche Kontrolle.
Regulierungsbehörden (z. B. FDA in den USA) fordern Prüfungen, Transparenz und oft Zulassungsprozesse für Software als Medizinprodukt.
Forschungsteams entwickeln Benchmarks zum Messen von „medical hallucinations“ und Sicherheitsrahmen.

Was unternimmt die Industrie insgesamt?

Breite Einführung von Retrieval/Knowledge-Connectors.
Mehr Transparenz: System- und Model-Cards mit Angaben zu bekannten Schwächen.
Domänenspezifische Validierung und strengere Testprotokolle.
Automatisierte Fact-Checking-Module und Benchmarks.
Agentenbasierte Architekturen mit klaren Sicherheitsregeln.

Was bleibt offen? — Forschungs- und Praxisfragen

Die Forschung arbeitet an besseren Messgrößen für „gefährliche“ Halluzinationen, robusteren Domänenlösungen (v. a. Medizin) und Interfaces, die Quellen sichtbar und prüfbar machen. Ganz verschwinden werden Halluzinationen wohl nie – aber sie lassen sich deutlich verringern.

Fazit

Halluzinationen sind eine systemische Eigenschaft heutiger Sprachmodelle – keine Absicht, sondern eine technische Folge ihrer Funktionsweise. Mit den richtigen Werkzeugen (z. B. RAG, Quellenanzeige) und kritischem Nutzerverhalten lässt sich das Risiko stark senken. In sensiblen Bereichen bleibt menschliche Expertise unverzichtbar.

Quellen (zitierfähig)

Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv: 2311.05232
Gao, Y. (2023). Retrieval-Augmented Generation for Large Language Models. arXiv
Gupta, S. (2024). A Comprehensive Survey of Retrieval ... arXiv
Agarwal, V. et al. (2024). MedHalu: Hallucinations in Responses to Healthcare Queries. arXiv
Asgari, E. et al. (2025). A framework to assess clinical safety and hallucination rates of LLMs for medical text summarisation. NPJ Digital Medicine
Google / NotebookLM: The Verge (2024) „Google's NotebookLM can now find its own sources“ Artikel
Swiss Medical Weekly (2023): „Chatbots in medicine: certification process and applied use“ smw.ch
FDA Guidance „Artificial Intelligence in Software as a Medical Device“ FDA.gov

ChatGPT kann Fehler machen. Überprüfe wichtige Informationen.