Wie wird ChatGPT trainiert?

Haben meine Chats Einfluss auf das Training des LLMs?

Und wie lernt das Modell “gut” von “böse” zu unterscheiden??

Ein vortrainiertes Sprachmodell wie ChatGPT unterscheidet nicht zwischen Hilfe und Schaden. Es generiert mit derselben statistischen Eleganz Hilfestellungen wie Hasskommentare. Beides sind schließlich nur wahrscheinliche Wortfolgen.

Wie also wird daraus ein Assistent, der sich weigert, Anleitungen für Waffen zu liefern?

Durch RLHF: Reinforcement Learning with Human Feedback und zusätzliche Sicherheitsschichten.

Menschen bewerten Antworten.

Das Modell lernt: Was ist hilfreich? Was ist schädlich?

Die Sache mit der Empathie: LLMs bleiben was sie sind: eine Maschine, die Muster erkennt und Wahrscheinlichkeiten berechnet, aber sie lernen in ihren Trainingsdaten verborgene Muster menschlichen Verhaltens, Sprache und Interaktion. Mit allem, was das bedeutet.

Auch dein Feedback landet im Trainingspool für zukünftige Versionen.

jedes 👍 oder 👎 kann in die Optimierung einfließen.

Du trainierst also mit.

Willst du wissen, wie dein Feedback mitbestimmt, was ChatGPT als „hilfreich” oder „schädlich” lernt?

Und wie genau die scheinbare Empathie ins System kommt?

In diesem Beitrag auf LinkedIn findest Du die Antworten: Wie lernt ChatGPT den Unterschied von “gut” und “böse”?