Warum sagt mir die KI nicht, wie Wahrheit geht?

Warum sagt mir die KI nicht, wie Wahrheit geht?

Wir haben mittlerweile Systeme, die schreiben, erklären, strukturieren, übersetzen, beraten, zusammenfassen und argumentieren, als säßen sie mit hochgezogener Augenbraue und drei Doktortiteln neben uns am Tisch. Sie wirken souverän, sie klingen sortiert, sie liefern auf Wunsch sogar eine kleine Executive Summary, damit die Wahrheit nicht zu viel Platz im Kalender einnimmt.

Und trotzdem bleibt eine wiederkehrende irritierende Erfahrung: Man fragt die KI nach etwas, bekommt eine überzeugende Antwort und merkt später, dass sie falsch war. Nicht absurd falsch, nicht so falsch, dass sofort alle Sirenen losgehen … sondern irgendwie angenehm falsch, plausibel, sprachlich toll. Also genau so falsch, dass es richtig gefährlich wird.

Das Problem ist nämlich nicht, dass KI manchmal Unsinn produziert. Das Problem ist, dass sie Unsinn extrem professionell und überzeugend formulieren kann.

Das Verführerische ist nicht die Antwort. Es ist die Form.

Menschen sind ziemlich anfällig für gute Form. Wir hören Klarheit und vermuten Kompetenz. Wir sehen Struktur und vermuten grandiosse Gedankenarbeit. Wir lesen einen sachlichen Ton und vermuten Ruhe und Klarheit. Das ist im Alltag oft nützlich, weil Form tatsächlich ein Hinweis auf Sorgfalt sein kann.

Bei generativer KI wird dieser Reflex aber auf die Probe gestellt, denn ein Sprachmodell kann die äußeren Merkmale einer guten Antwort erzeugen, ohne denselben inneren Prüfprozess zu durchlaufen, den wir bei einem Menschen unterstellen würden. Es kann differenziert klingen, ohne abgewogen zu haben. Es kann sicher klingen, ohne sicher zu sein. Es kann Quellen erwähnen, ohne wirklich mit Quellen gearbeitet zu haben. Und es kann sogar Bescheidenheit simulieren, wenn Bescheidenheit gerade zur erwarteten Antwortform passt.

Das ist keine moralische Schwäche der Maschine, sie blufft nicht im menschlichen Sinn. Sie hat keine Absicht, uns bewusst hereinzulegen. Genau das macht es aber nicht harmloser, denn für die Wirkung im Unternehmen ist es erst einmal egal, ob eine falsche Aussage aus Täuschungsabsicht, Nachlässigkeit oder statistischer Textproduktion entsteht. Entscheidend ist, ob Menschen sie ungeprüft übernehmen.

Und hier beginnt die eigentliche KI-Kompetenz, nämlich bei der Fähigkeit, sprachliche Plausibilität nicht mit Wahrheit zu verwechseln.

Eine KI sagt nicht: So ist die Welt. Sie sagt: So könnte dieser Satz weitergehen.

Große Sprachmodelle sind beeindruckend, weil sie aus sehr großen Textmengen Muster gelernt haben: Welche Begriffe treten zusammen auf? Welche Strukturen folgen auf welche Fragen? Wie klingt eine juristische Einschätzung, eine Produktbeschreibung, ein Coachingimpuls, eine medizinische Erklärung, eine Managementanalyse oder ein wissenschaftlicher Abstract?

ABER: Ein Sprachmodell hat zunächst kein eingebautes Verhältnis zur Welt, sondern ein Verhältnis zu Sprache über die Welt und das ist ein großer Unterschied.

Wahrheit ist keine Eigenschaft eines schön formulierten Satzes. Wahrheit ist eine Beziehung zwischen einer Aussage und dem, was tatsächlich der Fall ist. Dafür braucht man Kontext, Quellen, Prüfmethoden, Aktualität, Fachwissen und manchmal auch die Demut zu sagen: Das wissen wir gerade nicht sicher.

Die KI kann Sätze bilden, die so aussehen, als seien all diese Dinge bereits erledigt. Aber das Aussehen ist nicht der Vorgang. Oder anders gesagt: Die KI kann den Mantel der Gewissheit tragen, ohne je bei der Wahrheit an der Garderobe gewesen zu sein.

Halluzinationen sind kein peinlicher Betriebsunfall

Der Begriff „Halluzination“ ist etwas unglücklich, weil er menschlicher klingt, als er technisch gemeint ist. Gemeint sind plausible, aber falsche Aussagen, die ein Modell erzeugt. Die aktuelle Forschung beschreibt genau das als hartnäckiges Kernproblem großer Sprachmodelle: Sie können selbst bei scheinbar einfachen Fragen falsche Informationen mit hoher sprachlicher Überzeugung ausgeben. Eine 2026 in Nature(https://www.nature.com/articles/s41586-026-10549-w) veröffentlichte Arbeit argumentiert zudem, dass Next-Word-Prediction und viele accuracy-basierte Evaluationen ungewollt das Raten belohnen, statt Unsicherheit sauber zu honorieren.

Das ist für Unternehmen wichtig, weil es den Blick verschiebt.

Wenn eine KI halluziniert, ist das nicht einfach ein kleiner Ausrutscher, den man mit „Bitte sei korrekt“ aus der Welt promptet. Es ist eine Folge davon, wie solche Systeme trainiert, bewertet und genutzt werden. Wenn ein System in vielen Tests besser abschneidet, wenn es eine Antwort gibt, statt Unsicherheit zu markieren, dann lernt das System eine sehr menschliche Prüfungstaktik: Lieber etwas sagen als nichts sagen.

Nur ist das im Arbeitskontext eine ziemlich riskante Strategie. In einem Brainstorming mag ein mutiger Vorschlag hilfreich sein. In einer Compliance-Einschätzung, einer Angebotskalkulation, einer HR-Entscheidung, einem technischen Sicherheitskonzept oder einer rechtlichen Erstbewertung ist mutiges Raten eher kein Qualitätsmerkmal.

Das eigentliche Problem heißt Plausibilität

Eine der lehrreichsten Studien zur Wahrheitstreue von Sprachmodellen ist TruthfulQA (https://aclanthology.org/2022.acl-long.229.pdf). Der Benchmark wurde entwickelt, um zu prüfen, ob Modelle populäre falsche Überzeugungen oder irreführende Muster aus Trainingsdaten nachahmen. In der ursprünglichen Veröffentlichung waren damalige Modelle bei vielen Fragen deutlich weniger wahrheitstreu als menschliche Vergleichspersonen, besonders wichtig ist daran nicht die konkrete alte Prozentzahl, sondern die Diagnose: Modelle können Falsches lernen, weil Falsches in menschlichen Texten häufig, plausibel und gut formulierbar vorkommt.

Das Internet ist eben kein geordnetes Archiv der Wahrheit. Es ist eher ein riesiger Dachboden aus Wissen, Werbung, Irrtum, Fachlichkeit, Meinung, Wiederholung, Gerücht, Marketing, Mythos, Halbwissen und gelegentlich erstaunlicher Brillanz. Wer daraus Sprachmuster lernt, lernt nicht automatisch, was stimmt. Er lernt auch, wie Irrtümer klingen, wenn sie oft genug wiederholt werden. Das erklärt, warum manche KI-Antworten so überzeugend danebenliegen. Sie klingen nicht zufällig plausibel. Plausibilität ist Teil dessen, was das System besonders gut kann.

Und damit ist die alte Frage „Kann die KI das?“ oft die falsche Frage. Die bessere Frage lautet: Woran würden wir merken, dass sie es richtig gemacht hat?

Bessere Prompts helfen, aber sie retten uns nicht.

Natürlich macht Prompting einen Unterschied. Wer präziser fragt, bekommt oft bessere Antworten. Wer Kontext liefert, Zielgruppe beschreibt, Format vorgibt, Annahmen abfragt, Gegenargumente verlangt oder Unsicherheit ausdrücklich zulässt, erhöht die Qualität der Ausgabe.

Aber Prompting ist kein Wahrheitsverfahren. Ein guter Prompt kann die KI dazu bringen, vorsichtiger, strukturierter oder transparenter zu antworten. Er kann sie bitten, Annahmen zu markieren. Er kann sie auffordern, fehlende Informationen zu benennen. Er kann sie zu einer besseren Denkform anregen. Das ist wertvoll.

Nur bleibt eine Grenze: Ein schön formulierter Prüfauftrag ist noch keine Prüfung. Wenn das Modell keinen Zugriff auf verlässliche, aktuelle oder domänenspezifische Informationen hat, kann es diese Informationen nicht einfach durch eine elegantere Eingabe herbeizaubern. Und selbst wenn es Zugriff auf Quellen hat, muss noch geprüft werden, ob die richtigen Quellen gefunden, richtig verstanden und korrekt auf die Frage angewendet wurden.

Grounding: Wenn die KI Boden unter die Füße bekommt

Eine wichtige technische Antwort auf dieses Problem heißt Grounding, häufig umgesetzt über Retrieval-Augmented Generation, kurz RAG. Dabei antwortet das Modell nicht nur aus seinem gelernten Sprachmuster heraus, sondern bezieht zuvor abgerufene Dokumente, Datenbanken oder Wissensquellen ein. Die ursprüngliche RAG-Forschung zeigte, dass solche Modelle bei wissensintensiven Aufgaben spezifischere, diversere und faktischere Sprache erzeugen können als rein parametrische Modelle ohne externe Wissensbasis.

Das ist ein großer Fortschritt. Aber auch hier gilt: Grounding macht aus KI kein Wahrheitsorakel. Es macht sie prüfbarer.

Wenn die Quelle falsch, veraltet, unvollständig oder falsch ausgewählt ist, kann auch eine gut gegroundete Antwort danebenliegen. Wenn interne Dokumente widersprüchlich sind, erzeugt die KI nicht automatisch Klärung. Wenn eine Richtlinie schlecht geschrieben ist, wird sie durch Abruf nicht klüger. Und wenn Menschen nicht wissen, welche Quellen für welche Entscheidung maßgeblich sind, kann ein System diese Verantwortung nicht elegant wegautomatisieren.

Grounding ist also kein Ersatz für Fachlichkeit, es ist eher eine Einladung, Fachlichkeit besser in den Prozess einzubauen.

Warum das ein L&D-Thema ist

Auf den ersten Blick klingt das alles nach IT, Data Governance oder vielleicht nach Legal. Und natürlich gehören diese Bereiche an den Tisch, aber wer KI im Unternehmen wirklich produktiv und verantwortungsvoll nutzen will, landet sehr schnell bei Learning & Development.

Denn die entscheidende Frage ist nicht nur, welches Tool eingeführt wird, sondern auch welche Denk- und Arbeitsgewohnheiten Menschen im Umgang damit entwickeln.

Der europäische AI Act macht diese Perspektive inzwischen auch regulatorisch relevant: Artikel 4 verlangt von Anbietern und Betreibern von KI-Systemen, für ein ausreichendes Maß an KI-Kompetenz der Mitarbeitenden und anderer Personen zu sorgen, die mit KI-Systemen arbeiten. Die Q&A der Europäischen Kommission nennt dabei ausdrücklich, dass auch Unternehmen, die ChatGPT etwa für Werbetexte oder Übersetzungen nutzen, über spezifische Risiken wie Halluzinationen informieren sollten.

KI-Kompetenz bedeutet nicht, dass alle Mitarbeitenden Machine-Learning-Architekturen erklären können müssen. Sie bedeutet auch nicht, dass jeder Prompt in drei Absätzen mit Rollenbeschreibung, Kontextfenster und Output-Spezifikation beginnen muss.

KI-Kompetenz heißt vor allem: Menschen müssen verstehen, wann KI hilfreich ist, wann sie riskant wird, woran man Grenzen erkennt und welche Art von Prüfung in welcher Situation notwendig ist.

Von der Antwortmaschine zur Denkpartnerin

Vielleicht sollten wir KI im Unternehmen weniger als Antwortmaschine behandeln, nützlicher ist aus unserer Sicht das Bild der Denkpartnerin.

Eine Denkpartnerin darf Vorschläge machen. Sie darf sortieren, verdichten, irritieren, Varianten liefern, blinde Flecken markieren, Gegenargumente formulieren und beim Strukturieren helfen. Aber sie entscheidet nicht allein, was wahr ist. Sie trägt nicht die Verantwortung. Sie ersetzt nicht die Fachprüfung. Sie nimmt uns nicht ab, zwischen plausibel, relevant, belegt und richtig zu unterscheiden.

Das klingt vielleicht nach Einschränkung, in Wahrheit ist es eine Befreiung.

Denn sobald wir aufhören, KI als Wahrheitslieferantin zu überfordern, können wir sie besser nutzen. Dann muss sie nicht mehr so tun, als wüsste sie alles. Dann darf sie sichtbar machen, was sie kann: Sprache bewegen, Perspektiven öffnen, Komplexität vorstrukturieren, Wissen zugänglicher machen, Entwürfe beschleunigen und Denkprozesse anstoßen.

Aber die letzte Frage bleibt menschlich:

Stimmt das?

Und vielleicht noch wichtiger:

Woran machen wir fest, dass es stimmt?