Ich habe die tage versucht mit einer KI ein paar Dinge zu visualisieren und bin recht krachend gescheitert. Der Grund ist das KI nur malen kann was KI schon mal gesehen hat.
Nein, das ist kein KI-Problem, sondern hauptsächlich eines des Stable Diffusion Algorithmus und nebensächlich noch eines der Trainingsdaten. Mich nervt z.B. dass alle Fantasywesen absurd große spitze Ohren haben, egal was man sagt, was sicherlich daran liegt, dass niemand sich die Mühe gemacht hat, die Bilder nach Ohrgrößen und taggen und die mit die Daten hineinzutrainieren. Daher gilt jetzt immer: Elf = spitze riesenohren a la World of Warcraft.
Zum Thema Bilderzeugung: Simon Willison versucht jedem neuen LLM eine Vektorgrafik eines Pelicans auf einem Fahrrad zu entlocken. Durch GPT statt SD wird hier kein Pixelbild in weißem Rauschen gesucht und "enhanced", sondern Instruktionen generiert, in einem 2D-Koordinatensystem die "richtigen" Linien und Kreise zu setzen. Und das wird mit jedem neuen Modell besser. Und solange die Modell-Ersteller nicht anfangen, diesen schönen Testfall in ihre Trainingsdaten aufzunehmen, ist es ein guter Benchmark für die Fähigkeit, Dinge abstrakt visuell zu beschreiben.
Wären nicht 95% aller Anforderungen bereits dadurch abgedeckt, dass die Bilder so echt wie möglich aussehen und Text klar lesbar ist, worauf man sich aktuell ja fokussiert (siehe Nano Banana), ist keine Forschung mit anderen Algorithmen notwendig.
Ich denke aber, man kann die Erkenntnisse der aktuellen Anstrengungen, Weltmodelle zu erschaffen (wie genau das gemacht wird, kann ich sagen), letztlich auch auf das wirkliche Erschaffen von neuartigen "passenden" Kreaturen in diesen Welten anwenden.
Nano Banana kann aus dem Foto der Plastik-Miniatur, die man kaufen kann,
eine Zeichnung generieren…