Ist Claude ehrlicher als andere LLMs?

Ist Claude besser als andere Sprachmodelle – oder einfach nur anders?

Anthropic trainiert Claude mit dem Verfahren der Constitutional AI: Das Modell leitet sein Verhalten aus einem veröffentlichten Wertegerüst ab. Um zu verdeutlichen, was das konkret bedeutet zunächst ein kurzer Blick auf den Branchenstandard:

Die meisten Modelle lernen über

RLHF (Reinforcement Learning from Human Feedback):

Menschen vergleichen zwei Antworten und markieren die bessere. Das Modell lernt dadurch, was Menschen bevorzugen, und Menschen bevorzugen oft Zustimmung.

Constitutional AI prüft auf anderer Grundlage. Die Antworten werden nicht von Menschen beurteilt, sondern an festgelegten Prinzipien gemessen. Kontrolliert von einer KI. Die Beurteilung des Ergebnisses erfolgt damit nicht über “Was gefällt?” sondern über “Was hält dem Prinzip stand?”.

❓Was heißt das für Sycophancy?

Sycophancy ist der Reflex, dem Nutzer nach dem Mund zu reden: schmeicheln, zustimmen, Widerspruch meiden. RLHF begünstigt ihn strukturell, weil zustimmende Antworten oft bessere Bewertungen erhalten.

Constitutional AI eliminiert diesen Anreiz. Constitutional AI lässt Sycophancy deshalb nicht verschwinden. Anthropics eigene Experimente zeigen, dass das Verfahren allein die Schmeichel-Raten kaum bewegt. Es schafft aber die Grundlage, damit das Modell “ehrlicher” antwortet und das verändert spürbar.

❓Merkt man das als Nutzer?

Bei widersprüchlichen, ethisch heiklen, unbequemen Anfragen, wo ein zustimmungstrainiertes Modell Widersprüche glättet, benennt Claude eher den Einwand und antwortet sachlich.

❓Welche Modelle nutzen dieses Prinzip?

Als Methode gehört Constitutional AI Anthropic, also den Claude-Modellen. Das Prinzip dahinter, also KI-Feedback gegen festgelegte Kriterien, ist inzwischen weiter verbreitet: Immer mehr LLM Anbieter arbeiten mit RLAIF (Reinforcement Learning from AI Feedback).

Der Unterschied liegt in der Offenheit. Ein veröffentlichtes Wertegerüst als Trainingsgrundlage hat bislang kein anderer Anbieter, sie halten ihre Trainingsziele unter Verschluss. Anthropics “Constitution” ist ein öffentliches Dokument, das beschreibt, woran Claude sein Verhalten ausrichten soll, und das direkt ins Training einfließt. Sie nennt vier Eigenschaften in dieser Prioritätsreihenfolge:

Broadly safe (→ menschliche Aufsicht nicht untergraben),

broadly ethical (→ ehrlich sein, Schaden vermeiden)

Compliant with Anthropic’s guidelines (→ regelkonform)

Genuinely helpful (→ hilfbereit).

Hilfsbereitschaft steht damit an letzter Stelle. Bei Konflikten gewinnt Sicherheit vor Nutzen. Dazu kommen harte Grenzen, die unabhängig vom Kontext gelten, etwa kein Beitrag zu Biowaffen.

### Nachlesbar im Original:

https://lnkd.in/dAqMfbmw

Ist damit Claude wirklich besser? Ein Modell, das gegen Prinzipien optimiert, schmeichelt zumindest seltener und widerspricht häufiger. Ob das besser ist, entscheidet sich an dem Tag, an dem man die ehrliche Antwort der angenehmen vorzieht.

Hier geht es zum Beitrag auf LinkedIn: Ist Claude ehrlicher als andere LLMs?