,

Warum der Prompt „Bitte nicht halluzinieren“ nicht funktioniert.

Schon mal probiert „Antworte nur, wenn du dir sicher bist“ oder „Gib keine falschen Informationen“ in den Prompts einzubauen? Spoiler: Es funktioniert nicht.

Ein aktuelles Paper erklärt warum.

Halluzinationen sind unvermeidbar.


Eine Studie von OpenAI und Georgia Tech zeigt: KI-Halluzinationen sind kein Bug, sondern eine natürliche Folge des Trainings (und es liegt nicht an Falschinformationen in den Trainingsdaten!).

🤯 Das Schüler-Paradox
Stell dir vor, du schreibst eine Prüfung:

→ Bei unsicheren Antworten raten = oft Punkte

→ „Weiß ich nicht“ schreiben = immer 0 Punkte

Genau so werden KI-Modelle bewertet. Die Studie analysierte die wichtigsten Benchmarks:

—> Ergebnis: die Mehrheit der Evaluationen bestraft Unsicherheit.
Der Effekt: KI lernt zu bluffen statt ehrlich zu sein.

Die 4 Hauptursachen für Halluzinationen

(1) Statistische Komplexität
Die Modelle lernen, nach Mustern zu suchen. Wenn ein Fakt im Training nur einmal vorkommt („Singleton“), gibt es kein zuverlässiges Muster (z. B. seltene Fakten wie Geburtstage). Die KI muss raten.

(2) Modellarchitektur
Halluzinationen können entstehen, wenn die Modellarchitektur bestimmte Aufgaben nicht gut umsetzen kann, z.B. Buchstaben zählen: weil das Modell nicht die Zeichen einzeln betrachtet, sondern mit den Tokens rechnet. Eine detaillierte Analyse auf Buchstabenebene wird so zu einer unlösbaren Aufgabe.

(3) Benchmarking und Evaluation: Prüfungsmodus statt Ehrlichkeit
Die gängigen Evaluations- und Benchmark-Methoden bestrafen Unsicherheit (z. B. „Ich weiß es nicht“) und belohnen geratene Antworten, ähnlich wie bei Multiple-Choice-Tests für Menschen.

(4) KIs wissen nicht sicher, was sie wissen oder nicht.
Sie haben keine „Wissensgrenze“ wie ein Mensch. Selbst wenn man sie höflich bittet, nur bei Sicherheit zu antworten: Sie ratet trotzdem.

💡 Die Lösung ist nicht technisch, sondern strukturell

Die Forscher schlagen vor:

-> Benchmarks müssen „Ich weiß es nicht“-Antworten belohnen
-> Explizite Unsicherheitsschwellen in Prompts einbauen
-> Evaluierungssysteme grundlegend ändern

Mein Tipp für die Praxis:

Höre auf, zu hoffen, dass der perfekte Prompt Halluzinationen komplett verhindert.
Vertraue KI-Ausgaben nie blind – egal wie überzeugend sie klingen, das Human-in-the-Loop Prinzip ist unumgänglich.