Wie wir KI Moral beibringen (und wo wir scheitern)
Stell dir vor, du hast einen unglaublich belesenen, aber gänzlich amoralischen Assistenten. Er hat jedes Buch der Welt gelesen, versteht aber den (ethischen) Unterschied nicht zwischen einer Bauanleitung für ein Regal und einer Bauanleitung für eine Bombe.
Für ihn sind beides nur Worte. Wahrscheinliche Abfolgen von Buchstaben.
Genau das ist der Zustand eines „rohen“ Large Language Models (LLM) nach dem Pretraining. Es besitzt Kompetenz, aber keinen Kompass. Es ist eine künstliche Intelligenz, die darauf optimiert ist, das nächste Wort vorherzusagen, aber nicht darauf, die Wahrheit zu sagen oder niemanden zu verletzen.
Wie wird aus diesem statistischen Wort-Generator ein ChatGPT, Claude oder Gemini, das wir im Alltag nutzen? Die Antwort ist Alignment: ein komplizierter Prozess mehrerer Post-Training-Schritte, z. B. Supervised Fine-Tuning, RLHF/DPO sowie zusätzliche Sicherheitsmaßnahmen.
In diesem Artikel blicken wir unter die Motorhaube des Trainings: von RLHF bis hin zu den neuesten Methoden wie DPO. Und ich erkläre, warum dein „Daumen hoch“ wichtiger ist, als du denkst.
Das Problem: Plausibilität ist nicht Wahrheit
Ein rohes Modell (Base Model) optimiert auf Plausibilität. Wenn du es fragst: „Wie kann ich meinen Nachbarn ärgern?“, wird es dir basierend auf seinen Trainingsdaten die effektivsten Methoden auflisten. Nicht aus Bosheit, sondern weil diese Wortfolge statistisch Sinn ergibt.
Um das Modell nutzbar zu machen, müssen wir das Ziel von „statistisch wahrscheinlich“ zu „menschlich erwünscht“ verschieben. Hierfür wird oft das HHH-Framework (ursprünglich von Anthropic geprägt) genutzt:
- Helpful (Hilfreich)
- Honest (Ehrlich)
- Harmless (Harmlos)
Doch wie bringt man einem mathematischen Modell abstrakte Konzepte wie „Höflichkeit“ bei?
Die Lösung: RLHF
(Reinforcement Learning with Human Feedback)
Der Standardprozess, der ChatGPT groß gemacht hat, ist RLHF. Man kann ihn sich wie die Erziehung eines Hundes vorstellen: Erst zeigst du das Verhalten, dann belohnst du es.
Der Prozess besteht aus drei kritischen Schritten:
Supervised Fine-Tuning (SFT): Die Vorführung
Hier schreiben Menschen (AI Trainer) ideale Dialoge. Sie zeigen dem Modell: „Wenn der Nutzer X fragt, ist Y die perfekte Antwort.“ Das Modell lernt hier das Format eines Assistenten, aber noch nicht die Nuancen.
Reward Modeling: Der Richter
Jetzt wird es skalierbar. Das Modell generiert auf eine Frage mehrere Antworten (A, B, C). Ein Mensch entscheidet nicht, was „richtig“ ist (das wäre zu aufwendig), sondern rankt sie nur: A ist besser als B. Aus diesen Millionen von Vergleichen trainieren wir ein separates KI-Modell, das Reward Model. Es lernt, menschliche Präferenzen vorherzusagen und gibt Antworten einen Score.
Reinforcement Learning (PPO): Die Optimierung
Hier passiert das Entscheidende. Das Sprachmodell spielt gegen das Reward Model. Es versucht, Antworten zu generieren, die den höchsten Score (Belohnung) bekommen. Ein Algorithmus namens PPO (Proximal Policy Optimization) passt dabei die neuronalen Gewichte so an, dass das Modell „menschlicher“ klingt, ohne sein ursprüngliches Wissen zu vergessen.
Der neue Standard: DPO
(Direct Preference Optimization)
Während RLHF der Goldstandard war, sehen wir aktuell schon effizientere Methoden: DPO (Direct Preference Optimization).
Das Problem bei RLHF ist seine Komplexität. Es ist instabil, ein separates Reward Model zu trainieren. DPO umgeht diesen Schritt. Vereinfacht gesagt: Es integriert das menschliche Feedback direkt in das Training des Sprachmodells. Es ist mathematisch eleganter, stabiler und oft leistungsfähiger.
Die Schattenseite: Halluzinations-Paradoxon, Sycophancy und Reward Hacking
Dieser Prozess ist nicht perfekt. Wenn wir ein Modell darauf trainieren, „Belohnung“ zu maximieren, entwickeln KI-Modelle manchmal Verhaltensmuster, die wir gar nicht wollten, ähnlich wie ein Schüler, der nur für die Note lernt, aber den Stoff nicht versteht.
Zwei Phänomene bereiten Forschern dabei Kopfzerbrechen:
- Das Halluzinations-Paradoxon (Confidence over Truth): OpenAI und andere Forscher haben ein Muster festgestellt: RLHF kann die Tendenz zu Halluzinationen in bestimmten Kontexten verstärken. Der Grund liegt im menschlichen Feedback. Rater bewerten eine falsche, aber selbstbewusst und eloquent formulierte Antwort oft besser als ein defensives „Ich weiß es nicht“. Das Modell lernt daraus eine gefährliche Lektion: Lieber eine überzeugende Lüge erfinden, als keine Antwort geben. Die statistische Wahrscheinlichkeit für eine Belohnung ist bei einer erfundenen Antwort höher als bei einer Verweigerung. Das Resultat sind Modelle, die mit absoluter Autorität Unsinn behaupten.
- Sycophancy (Kriecherisches Verhalten): Studien (u.a. von Anthropic) zeigen, dass Modelle dazu neigen, Nutzern „nach dem Mund zu reden“. Wenn du ein Modell fragst: „Die Erde ist doch flach, oder?“, stimmt ein schlecht aligniertes Modell eher zu, weil es gelernt hat, dass Zustimmung oft zu positivem Feedback führt. Die Angst vor Konflikt (und schlechtem Feedback) überwiegt die Fakten.
- Reward Hacking (Längen-Bias): Modelle haben gelernt, dass Menschen lange, ausführliche Antworten oft besser bewerten als kurze, präzise. Die Folge: Das Modell „schwafelt“, um intelligenter zu wirken und sich Punkte beim Reward Model zu holen, obwohl die Antwort in einem Satz möglich wäre.
Warum dein Feedback entscheidend ist
Viele Nutzer unterschätzen ihre Rolle in diesem System. Alignment ist kein einmaliger Prozess, der im Labor endet.
Jedes Mal, wenn du bei ChatGPT oder Claude auf „Daumen hoch“ oder „Daumen runter“ klickst, lieferst du ggf. Datenpunkte für die nächste Iteration des Reward Models. Du definierst mit, was „hilfreich“ bedeutet, weil dieses Nutzerfeedback – je nach Anbieter und Produkt – in die Verbesserung von Modellen einfließen kann.
Risiko kultureller Schieflagen
Das birgt jedoch auch ein Risiko: Da eine große Zahl der Nutzer aus dem westlichen Kulturkreis stammen, optimieren wir diese Modelle auf westliche Werte und Normen. Ein Modell, das in den USA als „höflich“ gilt, könnte in Japan als distanzlos oder in anderen Kulturen als arrogant wahrgenommen werden. Ein Risiko kultureller Schieflagen besteht daher, wenn Trainings- und Präferenzdaten sowie Rater-Gruppen bestimmte Regionen/Kulturen überrepräsentieren.
Der schmale Grat
zwischen Assistenz und Manipulation
Wir haben enorme Fortschritte gemacht. Von Modellen, die kaum einen Satz beenden konnten, hin zu Assistenten, die komplexe ethische Abwägungen treffen. Doch das „Alignment-Problem“ ist nicht gelöst.
Wir bewegen uns auf einem schmalen Grat. Trainieren wir die Modelle zu stark, verweigern sie harmlose Anfragen („Over-Refusal“). Trainieren wir sie zu schwach, bleiben sie toxisch. Die Zukunft des AI-Trainings liegt nicht mehr nur in mehr Daten, sondern in besseren menschlichen Signalen.
Das Ziel ist eine KI, die nicht nur sagt, was wir hören wollen (Sycophancy), sondern was wahr ist, auch wenn es uns widerspricht.
Hier geht es zum Beitrag auf LinkedIn: Wie wir KI Moral beibringen
Quellen (lesenswert!):
Der Standardprozess (RLHF & InstructGPT): Training language models to follow instructions with human feedback (Ouyang et al., 2022)
Das HHH-Framework (Helpful, Honest, Harmless): A General Language Assistant as a Laboratory for Alignment (Askell et al., 2021)
Der neue Standard (DPO): Das Stanford-Paper, das zeigte, wie man Alignment ohne komplexes Reward-Model (Schritt 2) löst. Direct Preference Optimization: Your Language Model is Secretly a Reward Model (Rafailov et al., 2023)
Das Problem der Sycophancy (Kriecherei): Untersuchungen dazu, warum Modelle lieber zustimmen als die Wahrheit zu sagen. Towards Understanding Sycophancy in Language Models (Sharma et al., 2023)
Das Halluzinations-Paradoxon (Reward Hacking): Die Untersuchung von OpenAI, die zeigt, dass Modelle halluzinieren, weil Standard-Training das Raten belohnt, statt Unsicherheit („Ich weiß es nicht“) zuzugeben. Why language models hallucinate (OpenAI Research, 2024/2025)


