Jetzt habe ich noch mal GPT Deep Research bemüht, dass behauptet, dass es diese Studien gibt:
Ich habe die mir auf einer längeren Zugfahrt mal durchgelesen (also zumindest diejenigen, die ich finden konnte, und nicht nur auf dem Mist der KI gewachsen waren).
Das Ergebnis: ernüchternd.
- alle auf Basis sehr kleiner (wenig aussagekräftiger) Datenmenge
- oft von fachfremden Personen verfasst
- sehr häufig offensichtliche Fehler in der statistischen Auswertung (also solche, die auch nicht-Mathematikern auffallen)
- nicht peer-reviewed
- oft auf den Niveau einer Erstsemester-Hausarbeit geschrieben (wobei selbst die meißten Erstsemester heutzutage wissen, dass sie in einer wissenschaftlichen Arbeit keine Emojis verwenden sollten, wodurch sie einigen Autoren dieser "Studien" etwas voraus haben

)
Ich spüre hier den Denkfehler, dass ein LLM maßgeblich längere zusammenhängende Texte kopiert. Das ist – wenn es korrekt funktioniert – nicht der Fall. Die Trainingsdaten dienen dazu, ein "Sprachgefühl" zu entwickeln, damit Sätze generiert werden können, die für Menschen menschlich wirken. Dass in diesen Sätzen Faktenwissen dabei ist, ist Zufall.
Ja, es ist ein "Remix" aus ähnlichen Sätzen in ähnlichen Kontexten. Wenn man also gerne von das LLM ein "Rollenspielabenteuer" haben möchte, dann schaut es sich Texte an, welche als solche definiert sind, nimmt daraus Versatzstücke, und setzt diese neu zusammen (bzw. in Sätzen, welche denen der ursprünglichen Abenteuer ähneln).
Ob das Sinn macht, darauf schaut das LLM idR nicht, und das ist der Knackpunkt: wenn ein User so ein Bündel von nicht-zusammenpassenden Abenteuerversatzstücken bekommt, dann sagt der schnell "Nimm mal den Anfang, aber ändere den Mittelteil und das Ende so und so"... und da Menschen sehr gut darin sind bestimmte Trends und Erzählmuster zu erkennen (was einem LLM komplett abgeht), ist es recht wahrscheinlich, dass diese "Prompts" dann zu einem der ursprünglichen (unmodifizierten) Abenteuer passen, mit denen das LLM ursprünglich trainiert wurde. So dass es nur noch dieses Abenteuer (evtll. mit leicht anderen Worten) "nachbauen" muss.
Das wird solange passieren, wie LLMs den Weg des geringsten Widerstands gehen (Ergebnisse ausspucken, welche zu ihren Trainingsdaten passen) und die eigentliche Arbeit an den User auslagern (Papagei-Effekt, wo das LLM im Grunde nur das wiederkäut, was ein User in den Prompt gehackt hat) - was dann zu stundenlanger Prompt-Arbeit führt, bei der man versucht einem LLM Ideen zu vermitteln, die man eigentlich im Kern schon selber hat (und vermutlich mit deutlich weniger Arbeit selbst ausformulieren könnte, wenn man sich einmal auf den Hintern setzt und anfängt). Beide Probleme sind auch bei den aktuellsten Versionen von LLMs noch nicht hinreichend eingedämmt.