Wie funktioniert KI Bilidgenerierung?
„Zeig mir 04:35 Uhr” klingt einfach. Ist für eine Bild-KI aber ein Problem.
Warum? Die Antwort verrät viel über die Funktionsweise generativer KI.
Die Screenshots im Carousel zeigen die Ergebnisse meiner Tests: Die Zeiger stehen selten da, wo sie sollen, Ein volles Weinglas ist selten voll.
Aber warum eigentlich?
Wie funktioniert ein KI Bildgenerator: Diffuionmodell
Bildgeneratoren funktionieren komplett anders, als viele denken. Sie „verstehen” keinen Prompt. Sie haben während des Trainings Millionen Bilder von Uhren gesehen und dabei gelernt, wie Uhren AUSSEHEN (Ziffernblatt, Zeiger, Gehäuse, Zahlen). Was sie nicht gelernt haben: Was eine bestimmte Uhrzeit BEDEUTET. Dass 14:35 heißt, der große Zeiger steht auf der 7 und der kleine kurz vor der 3. Das ist für ein Diffusion Model unsichtbar.
Noch verrückter: Weil Uhren in Werbung und Produktfotos fast immer 10:10 Uhr zeigen (das symmetrische „V” rahmt das Logo ein), sind die Trainingsdaten massiv in diese Richtung verzerrt. Die KI hat also nicht nur kein Verständnis von Zeit, sie hat auch noch einen eingebauten Bias Richtung 10:10 Uhr.
Im Carousel erkläre ich Slide für Slide, was da technisch passiert, vom Training über Embeddings bis zu den Grenzen der aktuellen Architektur.
Das Uhr-Problem verrät darüber hinaus ziemlich viel darüber, wo KI-generierte Bilder insgesamt ihre Schwächen haben.
Hier geht es zum Beitrag auf LinkedIn: Wie funktioniert KI Bilidgenerierung?


