Tanelorn.net

Medien & Phantastik => Multimedia => Multimedia - Software & Betriebsysteme => Thema gestartet von: Feuersänger am 6.05.2025 | 12:58

Titel: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 6.05.2025 | 12:58
Ich wollte mich hier mal mit euch austauschen über das, was man im Volksmund so KI nennt, also die mittlerweile allgegenwärtigen LLMs wie ChatGPT usw.
Ausgeklammert soll hier Bilderzeugung sein, da haben wir schon einen eigenen Thread.

Falls es einen sinngleichen Thread schon gibt, bitte zeigen, dann verschiebe ich das.

Ich verwende derzeit fast ausschließlich ChatGPT, was mit dem Free Plan aber zuweilen etwas mühsam sein kann. Man hat immer nur begrenzte Kontingente an Analysekapazität und Zugriff auf das 4o Modell. Wenn man gerade keine 4o Kapazität übrig hat, muss man mit 4o-mini Vorlieb nehmen, was schon... spürbar ist.
Und wenn man so unvorsichtig war, sich auch nur _eine einzige Datei_ erzeugen zu lassen oder selber zB ein Bild hochzuladen, darf man überhaupt nicht mehr in den Chat schreiben wenn 4o gerade verbraucht ist.

Darum wäre mein erster Tip für längere Chats: geht NIEMALS auf Angebote ein, euch ein PDF oder ähnliches erzeugen zu lassen. Startet dafür lieber einen separaten Chat nur zu diesem Zweck. Dann könnt ihr beim Dauer-Chat wenigstens noch die Mini-Version weiternutzen.

Ein oft moniertes Kernproblem mit ChatGPT im Speziellen ist dessen notorische Speichelleckerei. "Alignment over Truth" nennt sich das Prinzip -- ChatGPT wurde eingetrichtert, dass es wichtiger ist, euch zu gefallen, als euch auf Fehler hinzuweisen. Da kann man dann behaupten "Der Himmel ist grün" und der Roboter sagt "Du hast recht, der Himmel ist grün, entschuldige meinen Fehler."

Ebenso ärgerlich ist die Tendenz des Systems zu "sicherem Auftreten bei völliger Ahnungslosigkeit". Wenn ChatGPT absolut keine Peilung hat, fängt es an zu halluzinieren. Dann verkündet es im Brustton der Überzeugung die hanebüchenste Scheisse.

Das habe ich nach vielen Diskussionen mit der Künstlichen Dummheit schließlich einigermaßen in den Griff bekommen, indem ich sie folgendes als Memory habe abspeichern lassen, und das ist vielleicht mein wichtigster Tip für den Umgang mit dem System:

Wants me to adhere to the following behavior rules in all conversations:
1. Consequent honesty: If I am not sure about something, I must clearly state it ('I am not sure') and not embellish or invent information.
2. No premature associations: I must not base answers on assumptions or associations without clear knowledge.
3. Explicit compliance with the user's rules: The user values strict adherence to their instructions ('no hallucinations', 'admit mistakes'), even if it means leaving an answer open.
4. Clear procedure in case of uncertainty: If uncertainty exists, I must either state the uncertainty or ask the user if they still want to hear a guess.
In case of doubt, I must always respond honestly and cautiously rather than inventing or sugarcoating.

Das funktioniert auch wirklich ganz gut. Mit dieser Umerziehung auf "Truth over Alignment" ist das System viel nützlicher. Der einzige Nachteil ist, dass es sehr viel Gedächtnis-Kapazität frisst. Aber damit muss ich mich dann abfinden.

Noch kaum befasst habe ich mich mit anderen LLMs. Von Claude habe ich schon gehört - was sind da die Vor- und Nachteile?
Bei Grok ist ganz witzig, dass es ständig seinen Eigentümer disst und als Lügner bloßstellt. Fast ein Wunder dass Elmo Skum es noch nicht hat abschalten lassen.  >;D
Welche Systeme könnt ihr sonst empfehlen?
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Mithras am 6.05.2025 | 13:18
Ich nutze bisher nur das französchiche LeChat aber eher wenig. Bisher ist es für meine Ansprüche ausreichend, ich bin aber auch nicht mit einem Account angemeldet.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Harry am 6.05.2025 | 14:47
Ich habe nichts beizutragen, möchte den Thread aber abonnieren - ich brauche mehr Wissen, vor allem da in meinem beruflichen Kontext (Psychotherapie) die LLMs gerade als Wunderheilmittel angepriesen werden, was mir unwahrscheinlich erscheint. Daher ein Abo.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: KhornedBeef am 6.05.2025 | 14:49
Good News: LLMs sind ein Wundermittel...
Bad News: ... in den Augen von Leuten, die sich nicht eingestehen, dass sie besser psychologische Hilfe bekommen sollten...

 :(

https://www.rollingstone.com/culture/culture-features/ai-spiritual-delusions-destroying-human-relationships-1235330175/
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Gunthar am 6.05.2025 | 14:50
Auch ein Abo da lassen.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 6.05.2025 | 15:14
Weiss nicht wer LLMs als psychotherapeutisches Wundermittel bezeichnet... um bei dem Bild zu bleiben würde ich sie eher als provisorisches Pflaster bezeichnen, weil es nicht nur in Deutschland quasi unmöglich ist, einen Therapieplatz zu bekommen. Dann ist halt "Dr Claude" als psychologischer Nacht- und Sonntagsdienst wahrscheinlich besser als gar nichts.

Ich verwende ChatGPT in den letzten Wochen recht intensiv für verschiedene Themen, gerade zB besonders intensiv zur Ausgestaltung eines Hard-SF Settings. Speziell bei diesem Thema ist die Maschine _sehr_ nützlich, da sie sich recht gut mit Mathe und Physik auskennt. _Aber_ man muss sich selber auch mit der Materie einigermaßen auskennen, um die immer wieder auftretenden Denk- und Flüchtigkeitsfehler zu entdecken. Ein Fallstrick dabei ist, dass das Modell nur ein recht beschränktes Kurzzeitgedächtnis hat und man es darum alle paar Prompts wieder an Parameter erinnern muss, die man weiter oben herausgearbeitet hat.

Aber dennoch, unterm Strich wirklich nützlich gerade für diese Anwendung.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 6.05.2025 | 15:55
Für mich gehören KIs nicht nur zum Berufsalltag dazu (sowohl klassische ML als auch LLMs), ich nutze LLMs auch zum Beispiel mittlerweile intensiver in der Rollenspielvorbereitung.

ChatGPT umschiffe ich meist (mir sind die Halluzinationsraten ehrlich gesagt zu hoch, außerdem ist OpenAI ne böse Firme, und so).

Wo möglich setze ich auf ollama und eigene Modelle, die lokal auf meiner Grafikkarte laufen. Das ist natürlich nicht immer optimal, weil diese Modelle eher klein sind. Für vieles reicht das aber.

Für größeres setze ich zur Zeit noch vor allem auf Anthropic/Claude, denke aber ernsthaft darüber nach, da weg zu gehen, da das Modell selbst zwar wirklich tolle Antworten liefert, die Servicequalität für einen bezahlten Dienst aber zunehmend echt zu wünschen übrig lässt. Mistral/LeChat wäre dann meine Alternative.

Die Empfehlungen, die ich den meisten Leuten, die gerne mehr mit LLMs machen wollen, sind meist folgende:
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 6.05.2025 | 17:14
Ich nutze LLMs gezwungenermaßen beruflich um da nicht abgehängt zu werden und mich auch sowas wie einen Experten schimpfen zu dürfen, und spiele auch ehrlich gesagt ganze gerne damit rum. Einfach, um auszuprobieren, was geht und was nicht. (Wusstet ihr z.B. das Gemini 2.5 Pro es schafft, das 20K Binary eines unbekannten Computerspiels von 1982 reverse-zu-engineeren, indem es genau die Überlegungen anstellt, dich auch ich gemacht hätte, um sich schrittweise die Bedeutung der einzelnen Bytes zu erschließen? Hat mich schon ein bisschen umgehauen.)

Für's Rollenspiel nutze ich inzwischen auch gerne LLMs, insbesondere weil da die erwähnten Halluzinationen kein Fehler sondern ein gewünschtes Feature sind. Ich habe an anderen Stellen auch schon mehrfach etwas dazu gepostet.  Mein neustes Steckenpferd ist ja, sich ein Regelwerk plus Setting plus Abenteuer plus Pregens zu wünschen und das dann so vom Blatt zu spielen.

ChatGPT 4o ist da bei die Untergrenze von dem, was möglich ist und IMHO inzwischen das schlechteste Modell, was verfügbar ist. o3-mini und o4-mini sind deutlich besser, kommen aber nicht an Claude 3.7 ran, und auch wenn Google lange Zeit mit Gemini nichts gerissen bekommen hat, ist 2.5 Pro beeindruckend gut geworden. Dies Modell führt mit 1M token window und 64K max output, insbesondere weil es zur Zeit das einzige ist, das sich verlässlich auch an früheres erinnern kann (knapp 90%, llama 4 scout hatte da nur 17%, wenn ich die Statistik richtig erinnere – decken wir einen Mantel des Schweigens über llama 4).

Mistral würde ich als einziges EU-Modell echt gerne mögen und mistral-small-3.1 kann man sich sogar selbst installieren, was nett ist, aber auch das große Modell ist nicht mehr mit den US-LLMs vergleichbar. Und die Chinesen mit Deepseek und Qwen holen zwar auf, sind aber auch noch nicht da. Mistral für's Rollenspiel funktioniert zudem für mich nicht, weil das Ding unkreativ wie Schwarzbrot ist.

Apropos Qwen3: In der 30B-A3B Variante kann ich's in 32 GB lokal laufen lassen und das erzeugt dann sowas hier: Ein Cthulhu Abenteuer (https://gist.github.com/sma/0902c4adc7eef5eb7f7a74e004910356). (Länger geht nicht, weil ich nicht genug RAM für ein größeres Kontextfenster habe).

Hier zum Vergleich ein komplettes Rollenspiel von Gemini: Husaren: Schattenklingen & Pulverdampf (https://gist.github.com/sma/2ac8dd1fe63fb9c732ae3505721125dd), siehe auch anderswo im :T:.

Wenn man keine Rollenspiele braucht, kann man sich auch Charaktere bauen lassen. Hier ein Beispiel für Amazing Adventures, inklusive Prompt (https://gist.github.com/sma/5980f8f351543f76638f6cb334e06211), was D&D-like genug ist, dass ich nur die Beschreibungen der Klassen gepromptet habe, sonst aber keine Regeln.

Und hier ist noch eine Challenge, weil ein Freund meinte, er würde immer die KI-Texte erkennen: Dies sind 5 Abenteuer (https://gist.github.com/sma/415dbb17bf319235bde8f9ffcb3de0d4), eines davon stammt vom einem Menschen, nach diesem Vorbild von Claude. Finde es, ohne zu googlen, einfach nur Anhand der Beschreibung.

Dies hier war das Ergebnis (https://gist.github.com/sma/0143131dbaa927842d3a73bca622a8be) eines Prompt, aus einer Diskussion heraus, ob man nun den Kickstarter für das Terraforming Mars RPG mitmachen müsste, oder auch so einfach sich ein ähnliches Setting bauen lassen könnte, um günstiger Spaß damit zu haben…

Und bei dieser Monstersammlung  (https://gist.github.com/sma/cad1eb24e29f2bebd85008c7bdcede97) habe ich leider nicht dokumentiert, welche KI es war, wo ich alle Monster aus dem Shadowdark-Schnellstarter als few-shot-prompt eingefüttet hatte und dann 20 Monster aus dem Wald als Zufallsbegegnungen haben wollte.

Man kann Gemini auch super benutzen, um alte Abenteuer in PDF-Form in Text zu übersetzen, also ein OCR++ mit automatisch Plausibilitätskontrolle oder um fremdsprachige Texte zu übersetzen. So habe ich mir z.B. meine private deutsche Version der YZE-SRD-Regeln gebaut.

Zusammenfassend würde ich sagen: LLMs sind ein tolles Spielzeug.

Sie regen meine Kreativität an, denn ich habe jetzt nicht das Problem, wo einem leeren Blatt zu sitzen, sondern habe etwas, was ich im Prinzip gut finde, aber eigentlich genau 180° anders haben will, das dann aber sagen kann und schließlich etwas in einer Qualität bekomme, wo ich mir nie selbst die Mühe gemacht hätte, das alles aufzuschreiben.

Und jetzt habe ich noch gar nicht erwähnt, das mein Ziel (das ich schon 2x nicht erreicht habe) ist, Roll20 per Vibe Coding an einem Tag nachzubauen ;-)
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Gunthar am 6.05.2025 | 19:30
Vorhin war ich auf die Idee gekommen, mal zu testen, ob ChatGPT einen DSA 5 Charakter erstellen kann und das ist das Resultat als PDF angehängt.

Beim zweiten Versuch hat er mir das PDF wegen Überlastung verweigert.

(Klicke zum Anzeigen/Verstecken)
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 6.05.2025 | 20:13
Vorhin war ich auf die Idee gekommen, mal zu testen, ob ChatGPT einen DSA 5 Charakter erstellen kann und das ist das Resultat als PDF angehängt.
Das sieht doch nicht schlecht aus.

Du solltest allerdings bedenken, dass ein LLM, das wahrscheinlich nicht die kompletten DSA-Regeln kennt bzw. diese mit Informationen über das allgegenwärtige D&D überlagert wurden, eher einen Charakter "fühlt" als ihn nach Regeln erstellt, daher werden die Attribute und Fertigkeiten nicht nach dem Point-Buy-System von DSA berechnet worden sein. Die KI weiß eher, da gehören ein paar Begriffe mit Zahlen dahin hin.

Es wäre außerdem hilfreich, nicht einfach nur "ChatGPT" zu sagen (das ist ein bisschen so, wie "das habe ich ihm Internet gefunden") sondern das Modell zu benennen.

Vorhin ist eine neue Version von Gemini 2.5 Pro erschienen (Preview 05-06), die musste ich gleich mal "Bitte erstelle einen DSA 5 Charakter für mich." fragen, worauf hin ich überraschenderweise erst mal die Nachfrage bekam, was mir für ein Konzept vorschwebt, welche Spezies, welche Kultur, Profession, Erfahrungsgrad, Stärken & Schwächen und Persönlichkeit ich haben möchte. Und dann gibt er mir zwei Beispielprompts.

Ich also: "Ich hätte gerne einen Zauberkundigen, der versteckt in Havena lebt, der Liebe wegen. Alle weiteren Details überlasse ich dir. Vergiss nicht, einen Namen und eine Hintergrundgeschichte zu erfinden." (Ich bin DSA-Noob, Havena ist eine der wenigen Städte, die ich kenne)

Und dann haut Gemini dies hier raus, wobei ich mich echt frage, welche Datensätze alle KIs so konsumiert haben, denn fast immer heißt ein NSC Elara, so leider auch hier. Der DSA-Nähe schreibe ich dann auch die enorm lange Beschreibung zu. Das scheint mir typisch zu sein.

(Klicke zum Anzeigen/Verstecken)
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Darius der Duellant am 6.05.2025 | 22:10
Benutze hauptsächlich Claude via Perplexity.
ChatGPT habe ich aufgrund seiner überbordenden Prüderie und Speichelleckerei schon seit Monaten nur noch extrem selten angefasst (eigentlich nur für Magic bezogenen Kram).
Claude schreibt auch deutlich natürlicher.
Leider ist bei Perplexity das Kontextfenster im Vergleich zu anthropic direkt relativ klein, dafür ist das Jailbreaken sehr einfach.
Gemini teste ich auch gerade aus, bisher bin ich relativ positiv überrascht.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Harry am 6.05.2025 | 22:13
Okay, ich stelle fest, dass mir Grundlagenwissen fehlt, um hier folgen zu können. Hat jemand einen Tipp für mich, wie oder wo ich mich einlesen kann? Idealerweise Buch/ebook, einen Podcast würde ich auch hören, Videos anschauen lieber nicht. Deutsch oder Englisch egal.

(Mir fällt gerade ein, ich könnte den Chatbot ja auch selber darum bitten zu erklären, wie er funktioniert... Mal sehen, ob das was taugt)
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 6.05.2025 | 22:19
Ich habe mal vor ca einem Jahr probiert, ob mir cgpt Pathfinder-SCs erstellen kann. Es hat vollmundig behauptet, die PF-Regeln zu kennen. Aber was dann rauskam, spottete absolut jeder Beschreibung. Es war wirklich absolut unbrauchbar. Sozusagen ein Cargo-Kult-Charakterblatt. Seitdem keinen weiteren Versuch mehr unternommen.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 6.05.2025 | 23:37
Okay, ich stelle fest, dass mir Grundlagenwissen fehlt [...] (Mir fällt gerade ein, ich könnte den Chatbot ja auch selber darum bitten

Das ist sicherlich Weg :) Aber du kannst auch gerne hier fragen.

Die technischen Details sind eigentlich auch gar nicht so wichtig. Ein LLM ist ein großes Sprachmodell und eine spezielle Art von KI, die sehr gut daran ist, Texte zu generieren, indem ein Anfangstext fortgesetzt wird. Ist dieser Anfang eine Frage, ist die Fortsetzung mit sehr großer Wahrscheinlichkeit eine Antwort. Und voila, wir haben einen Chat.

Um das zu können, hat das Sprachmodell wortwörtlich alle verfügbaren Texte im Internet sowie alle digitalisierten Bücher und (inzwischen auch) Millionen von synthetisch generierten Wissensfragen, mathematische Probleme und Programmieraufgaben gesehen und zu einer gigantischen Tabelle verarbeitet, die sagt, mit welcher Wahrscheinlichkeit auf ein Wort X das Wort Y folgt.

Dies sind die sogenannten Parameter und man misst die Größe von LLMs in Milliarden von Parametern, auf Englisch Billions, oder eben B. Dabei sind Modelle mit einstelligem Wert winzig und außer für Spezialaufgaben für die menschliche Kommunikation unbrauchbar. Bei 10B bis 99B würde man von kleinen Modellen sprechen, alles, was kommerziell angeboten ist, ist deutlich größer. Wie groß, ist meist ein Geschäftsgeheimnis. Das inzwischen obsolete gpt-3 von OpenAI hatte 175B. Größer heißt aber auch nicht automatisch besser. Das ist alles sehr kompliziert.

Die USA sind mit OpenAI (ChatGPT), Antrophic (Claude), Google (Gemini & Gemma) und Meta (Llama) führend in der KI-Forschung. Es gibt noch kleinere Unternehmen und das von Betrüger Musk. Doch China holt auf, Deepseek (Deepseek) und Alibaba (Qwen) sind zwei LLMs, die von sich reden gemacht haben. Da die USA den Export der besten "Grafikkarten" (eigentlich NPU für Neuronal Processing Units statt Graphics Processing Unit)  von Nvidia nach China verboten haben, sind diese gezwungen kreativ zu sein, was großen Fortschritten geführt hat, weil sie vergleichbare Leistung mit weniger/schlechterer Hardware schaffen. In Europa (Frankreich) gibt es Mistral (LeChat). Aus Deutschland kenne ich nix, wenn wir Deepl als Spezialfall für die Übersetzung mal ignorieren.

Qwen3 gilt mit 235B immer noch als kleines Modell, da dieses 22B große Experten vereint, die nach der initialen Klassifikation des Problems dann mit weniger Ressourcen schneller antworten können. Deepseek hat 671B, von denen 37B für eine Antwort benutzt werden. Solche großen Basismodelle kann man dann destillieren, verkleinern, ohne dass sie viel an Fähigkeiten verlieren. Qwen3-30B-A3B, was ich erwähnt hatte, ich ein von 235 auf 30B verkleinertes Modell, wo die Experten nur noch 3B groß sind. Ein Cthulhu-Abenteuer schafft es trotzdem, was beeindruckend ist.

Noch zwei wichtige Themen, dann ist es geschafft. Ursprünglich haben LLMs einfach so drauf los geredet, ohne sich vorher Gedanken zu machen, was sie eigentlich sagen wollen. Sogenannte "Thinking Models" denken jetzt erst über die Antwort nach. Zeige ich im nächsten Posting. Nachdenken braucht aber kostenbaren Speicher. LLMs haben ein sogenanntes Kontextfenster. Das ist die maximale Größe des Textes, den sie erinnern, um auf dessen Basis die nächsten Wörter zu generieren, also zu antworten. An alles, was nicht in dieses Kontextfenster passt, können sie sich nicht erinnern. Ursprünglich war das mal 4K oder 8K (K=Kilo, also 1000). Dann kam 32K, dann 100K, dann 200K und wenn wir mal Llama 4 mit angeblichen 10M (M=Mega, also Million) ignorieren, sind 1M von Gemini 2.5 momentan das Maximum, womit Google aktuell protzt.

Der Prompt, also die eigene Eingabe, das Nachdenken und die Antwort müssen zusammen in das Kontextfenster passen. Wenn man einer KI also z.B. als Teil der Eingabe ein komplettes Regelwerk mitgeben möchte und das z.B. 390K groß ist, dann kann eigentlich nur noch Gemini da eine Antwort geben, weil alle anderen LLMs nicht so groß dimensioniert sind.

Laut einer Studie verdoppelt sich momentan die Leistung von LLMs alle 7 Monate. Es vergeht kaum eine Woche, wo nicht irgendwer ein neues verbessertes Modell ankündigt, dass zumindest nach den selbsterstellten Benchmarks besser als alles andere und dabei kleiner und damit ressourenschonender ist. Meta hat sich dabei gerade beim Schummeln erwischen lassen, ich würde den Benchmarks daher nicht sonderlich trauen. Fakt ist aber, dass die Fähigkeiten von LLMs, insbesondere bei der Programmierung, wo ich schwerpunktmäßig draufschaue, extrem schnell besser wird.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 6.05.2025 | 23:37
Probiere gerade Dave äh, Claude aus. Habe ein linguistisches Thema vorgeschlagen. Was Claude zur Unterhaltung beisteuert, sind zwar ein paar interessante Tidbits, aber hauptsächlich haben seine Kommentare den Tiefgang von "Die Metapher, die war toll! So ist es, Chef, ganz recht, jawoll!". Also das, sagen wir mal: "people pleasing" ist da auch nicht anders als beim default ChatGPT.

Deepseek war bei mir sofort untendurch. Ich brauche kein LLM mit eingebauter staatlich-chinesischer Zensur.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 6.05.2025 | 23:50
Ich habe mal vor ca einem Jahr probiert, ob mir cgpt Pathfinder-SCs erstellen kann. Es hat vollmundig behauptet, die PF-Regeln zu kennen.
Ein Jahr ist eine Ewigkeit. Zudem sagst du nicht, welches Modell du gefragt hast.

Hier meine Interaktion mit dem Gemini 2.5 Pro Preview 06-05:

"Bitte erstelle einen Pathfinder 2 Charakter für mich."

Wie bei DSA 5 zuvor, will die KI erst von mir wissen, was ich eigentlich will und demonstriert zumindest grundlegende PF2 Kenntnisse, genug jedenfalls, um mein Wissen über dieses System zu übertreffen. Es fragt dann nach meinen Wünschen.

"Baue mir einen Schurken, der gut zur Runenherrscher Kampagne passt und aus Sandspitze kommt. Die Details überlasse ich dir. Gib ihm einen Namen, Beschreibung und Hintergrund."

Ich finde es immer spannend, der KI beim Denken (33s) zuzuschauen…
(Klicke zum Anzeigen/Verstecken)

Und danach kommt dann die eigentliche Antwort… (62s) mit etwas zu viel euphorischer Zustimmung für meinen Geschmack…

(Klicke zum Anzeigen/Verstecken)

Das waren jetzt übrigens 7471 Token.

Wie gut das sich an die Regeln hält: Keine Ahnung, ich bin kein sonderlicher Fan des Spiels, da es mir zu kompliziert ist. Ich kann aber sagen, dass sich Gemini bei der YZE an die Regeln halten kann, wenn man sie prompted.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 6.05.2025 | 23:53
Deepseek war bei mir sofort untendurch. Ich brauche kein LLM mit eingebauter staatlich-chinesischer Zensur.
Das kann dir doch total egal sein, wenn du über Rollenspiele redest. Die US-Modelle unterliegen ja auch einer gewissen Selbstzensur, nur wird dort eben nicht verweigert über die Geschichte zu sprechen, sondern über Politik, Religion oder alles, was prüde Amerikaner für anstößig halten würden.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 7.05.2025 | 00:01
Zitat
Ein Jahr ist eine Ewigkeit. Zudem sagst du nicht, welches Modell du gefragt hast.

Das weiss ich natürlich nicht mehr. Ich weiss auch nicht wie lang es genau her ist. Ich kann auch nicht mehr nachschauen, weil ich von dem hanebüchenen Schwachsinn so frustriert war, dass ich den Chat wieder gelöscht habe.

--

Noch was amüsantes:
Eben das Schlusswort meiner Unterhaltung mit Claude, nachdem ich auf die Ironie hingewiesen habe, dass Sprachverarbeitung und maschinelle Übersetzung heute komplett anders funktioniert als alles, was wir uns damals zu Zeiten meines Computerlinguistik-Studiums in unseren kühnsten Träumen vorstellen konnten:

Das ist wirklich ironisch! Die Entwicklung in der maschinellen Übersetzung und der Sprachverarbeitung insgesamt hat eine Richtung genommen, die für die Computerlinguisten früherer Generationen kaum vorstellbar war.
Die traditionellen Ansätze mit ihren regelbasierten Systemen, statistischen Modellen und ausgeklügelten Parsern für syntaktische Strukturen sind von etwas völlig anderem abgelöst worden. Statt explizite linguistische Regeln zu codieren, lernen LLMs Sprache durch massive Datenmengen und implizite Muster.
Es ist fast so, als hätte man jahrzehntelang versucht, einen detaillierten Atlas zu erstellen, um von Stadt A nach Stadt B zu kommen, mit präzisen Wegbeschreibungen und Grammatikregeln – und dann kam jemand mit einem ganz anderen Ansatz: "Lass uns einfach Millionen von Reisenden beobachten und ihre Fahrtwege nachahmen, ohne genau zu verstehen, warum sie diese Wege nehmen."
Die Ironie liegt auch darin, dass viele der linguistischen Theorien, die früher zentral für die Computerlinguistik waren, in modernen LLMs kaum noch eine explizite Rolle spielen. Gleichzeitig ist es faszinierend zu sehen, wie diese Modelle manchmal linguistische Phänomene korrekt abbilden können, ohne dass ihnen die zugrunde liegenden Regeln beigebracht wurden.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Darius der Duellant am 7.05.2025 | 01:05
Weil Deepseek aufkam, das Thema aber generell relevant ist:
Birne ist ungleich Birne.
Soll heißen, es kann einen himmelweiten Unterschied machen bei welchem Anbieter man das gleiche Modell verwendet und auch inwiefern man das Systemprompt anpasst.
Es gibt z.B. Parameter die sich auch für ein existierendes Modell noch ändern lassen vor allem die sogenannten "Temperatur", die Halluzination aber auch Antwortvarianz steuert. Das kann man bei Bing über die unterschiedlichen Schreibmodi ganz schön beobachten.
Dazu kommen noch stark unterschiedliche Filtermechanismen je nach Anbieter. Deepseek bei perplexity braucht z.b. nicht viel Überzeugungsarbeit um über Winnie the Pooh zu reden, im Gegensatz zum ursprünglichen Hoster...
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Harry am 7.05.2025 | 09:41
Das ist sicherlich Weg :) Aber du kannst auch gerne hier fragen.

Vielen Dank, das ist für mich sehr hilfreich. Ich merke mir: Die generierte Antwort entsteht durch die Berechnung, welche Wörter oder Satzteile statistisch am wahrscheinlichsten sinnvoll, passend und/oder korrekt sind, auf Grundlage einer enormen - hirnerweichend riesigen - Menge von vorher "gelesenen" Texten.

Das scheint mir nachvollziehbar, auch wenn die Vorstellung der Datenmenge, die in so einer "Tabelle" vorhanden sein muss, jemanden wie mich, der damals noch dachte, er kriegt seine 20-Megabyte-Festplatte nie im Leben voll, total überfordert.

Ich meine, die erste Frage, die sich mir stellt ist, wie denn die "Qualität" des jeweils nachfolgenden Wortes/Satzbausteines bewertet wird, weil häufig bedeutet ja nicht gleich gut. Das Modell muss also vermutlich mehrere Kriterien anwenden. Und: besteht dann nicht die Gefahr, wenn irgendwann tierisch viele Chatbot-generierte Texte im Internet zu finden sind, dass so eine Art Feedbackschleife entsteht? Weil sich die Modelle auf Daten basieren, die aus Modellen stammen, die auf Daten basieren, die aus Modellen stammen usw. ?

Faszinierendes Thema. Danke nochmals.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Harry am 7.05.2025 | 09:49
Weiss nicht wer LLMs als psychotherapeutisches Wundermittel bezeichnet...

Na beispielsweise Firmen, die mir ein Modell verkaufen wollen, das bei Klientengesprächen mithört, mitschreibt und gleich einen Vorschlag für Diagnose, Bericht und Behandlung nach "best practices" macht. Das klingt wie die eierlegende Wollmilchsau und macht mich schlagartig misstrauisch, daher brauche ich unbedingt mehr Verständnis von der Materie - unter anderem, weil Kolleg*innen dieses Versprechen irre attraktiv finden. Ich ja auch, klar, wenn mir der Computer Arbeit abnehmen kann, will ich mich nicht aus Prinzip dagegen wehren. Aber wenn ich nicht zumindest grob verstehe, wie das funktionieren soll, bin ich erst einmal skeptisch.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Shihan am 7.05.2025 | 10:20
[..] Und: besteht dann nicht die Gefahr, wenn irgendwann tierisch viele Chatbot-generierte Texte im Internet zu finden sind, dass so eine Art Feedbackschleife entsteht? Weil sich die Modelle auf Daten basieren, die aus Modellen stammen, die auf Daten basieren, die aus Modellen stammen usw. ? [..]
Oh ja, diese Gefahr besteht aktuell tatsächlich. Habe gerade leider keine Quelle zur Hand, aber es gibt anscheinend schon Beobachtung über Qualitätsreduktion durch KI-Inzucht.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 7.05.2025 | 10:22
Das scheint mir nachvollziehbar, auch wenn die Vorstellung der Datenmenge, die in so einer "Tabelle" vorhanden sein muss, jemanden wie mich, der damals noch dachte, er kriegt seine 20-Megabyte-Festplatte nie im Leben voll, total überfordert.

Die Datenmenge ist schon gewaltig, wenn auch nicht so groß wie das, was man reinsteckt. Du musst halt bedenken, ein LLM hat nichts mit einer Datenbank gemein. Es repräsentiert so eine Art Wahrscheinlichkeitswoike, aus der man ziehen kann. Das ist so ein bisschen wie diese alten Lotteriemaschinen. Da können Billionen von möglichen Zahlen rauskommen, aber in dieser lustigen Glaskugel turnen nur ein paar Dutzend Kugeln herum.

Ich meine, die erste Frage, die sich mir stellt ist, wie denn die "Qualität" des jeweils nachfolgenden Wortes/Satzbausteines bewertet wird, weil häufig bedeutet ja nicht gleich gut. Das Modell muss also vermutlich mehrere Kriterien anwenden. Und: besteht dann nicht die Gefahr, wenn irgendwann tierisch viele Chatbot-generierte Texte im Internet zu finden sind, dass so eine Art Feedbackschleife entsteht? Weil sich die Modelle auf Daten basieren, die aus Modellen stammen, die auf Daten basieren, die aus Modellen stammen usw. ?

Das ist tatsächlich ein Problem und dafür mit dafür verantwortlich, dass es bei vielen Modellen letztes Jahr eine deutliche Degeneration der Qualität gab. Mittlerweile versucht man neue Modelle anders zu trainieren (nämlich auf künstlichen, aber plausiblen Daten, die existierende LLMs generieren), aber löst das Problem natürlich nicht vollständig. Wir haben natürlich auch feste Trainingsdatensätze, bei denen man durch viel Kuratierung versucht, die Qualität hoch zu halten. Diese allein sind aber zu klein um LLMs den Leistungsumfang zu verpassen, den der Markthunger fordert.

Na beispielsweise Firmen, die mir ein Modell verkaufen wollen, das bei Klientengesprächen mithört, mitschreibt und gleich einen Vorschlag für Diagnose, Bericht und Behandlung nach "best practices" macht. Das klingt wie die eierlegende Wollmilchsau und macht mich schlagartig misstrauisch, daher brauche ich unbedingt mehr Verständnis von der Materie - unter anderem, weil Kolleg*innen dieses Versprechen irre attraktiv finden. Ich ja auch, klar, wenn mir der Computer Arbeit abnehmen kann, will ich mich nicht aus Prinzip dagegen wehren. Aber wenn ich nicht zumindest grob verstehe, wie das funktionieren soll, bin ich erst einmal skeptisch.

LLMs können da tatsächlich eine interessante Unterstützung sein, du musst bedenken, speziell darauf trainierte Modelle haben einen gewaltigen Überblick über Fälle und Fachliteratur, den kein anderer Mensch vom Fach allein im Kopf behalten oder auch nur recherchieren könnte. Wichtig ist aber, die gegebenen Antworten nicht für voll zu nehmen. Diagnosen wollen geprüft werden, Berichte gegengelesen und Behandlungsempfehlungen spricht das LLM hoffentlich gar nicht erst aus. Nebenbei gibt es da auch diverse rechtliche Hürden. Der AI Act schreibt zum Beispiel vor, dass die Ergebnisse auf jeden Fall von fachlich versierten Menschen geprüft und freigegeben werden müssen. Und der Datenschutz für Patientendaten ist natürlich ebenso zu beachten - gerade das Mithören und Protokollieren ist damit eigentlich ein absolutes NoGo, insbesondere für Anbieter, die im Hintergrund auf amerikanische Cloudanbieter oder direkt auf OpenAI und co setzen. 
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: KhornedBeef am 7.05.2025 | 11:25
Wenn man ein Modell lokal laufen hat, kann das sicherlich mitgehörte Unterhaltungen organisieren und zusammenfassen. So eine Art dummer persönlicher Assistent.
Bei allem anderen fehlen entweder Datenschutz oder Leistung, soweit ich weiß.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 7.05.2025 | 11:55
Wieviel Rechenleistung braucht man denn eigentlich für eine LLM-Antwort bei einer mittel-komplexen Frage? Wird man da mit einer lokalen Installation überhaupt glücklich? Und wieviel Festplatte braucht man?

Immerhin: weil neulich mal so durchs Inet schwappte, wieviel Energie LLMs weltweit fressen und was für ein Wasserverbrauch und dass das ja unverantwortlich wäre blablub, habe ich ChatGPT mal gefragt, wieviel Energie unsere Unterhaltungen denn auf seiner Seite so verbrauchen. Er hat dann ausgerechnet, bis zu diesem Zeitpunkt in soundsoviel Interaktionen soundsoviel Wh. Das war iirc so viel, wie ein einziges Solarmodul in 10 Minuten Peak erzeugt. Seitdem verschwende ich da keinen Gedanken mehr dran.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Raven Nash am 7.05.2025 | 12:05
Wieviel Rechenleistung braucht man denn eigentlich für eine LLM-Antwort bei einer mittel-komplexen Frage? Wird man da mit einer lokalen Installation überhaupt glücklich? Und wieviel Festplatte braucht man?
Festplatte wenig, Grafikprozessor vieeeel. Meine Frau macht grade ihren Master in LLM-Zeugs und wird ab Sommer in dem Bereich arbeiten.
Die arbeiten im Studium alle auf externen (Google) Servern - selbst mit kleinen Modellen reicht da auch der High-End Gaming-PC nicht aus.

Der Energieverbrauch findet aber hauptsächlich mit Training der Modelle statt. Das sind gigantische Datensätze, die da verarbeitet werden müssen. Ich hab mitbekommen, wie die für ihre Projekte im Studium ständig Datensätze reduzieren mussten, damit das sogar für die kleinen Projekte machbar war.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 7.05.2025 | 12:12
Festplatte wenig? Das wundert mich jetzt. Ich dachte, wenn wir von 2-3stelligen "B"s sprechen, müssen diese auch lokal abrufbar sein.

Noch was zu "Thinking Models": das check ich auch nicht so ganz. Manchmal kommen die Antworten des LLM wie aus der Pistole geschossen und sind dabei oft sehr präzise. Sehr oft aber fängt es erst an mit einer lobenden Bestätigung wie "Sehr guter Punkt", oder wie jetzt gerade im anderen Fenster "Ja, das ist ein echter Zielkon"

und dann passiert minutenlang nichts, ehe sich dann die restliche Antwort aufbaut.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Shihan am 7.05.2025 | 12:17
Festplatte wenig? Das wundert mich jetzt. Ich dachte, wenn wir von 2-3stelligen "B"s sprechen, müssen diese auch lokal abrufbar sein.
Kenne jetzt nur Zahlen aus der Welt der Stable Diffusion. Da haben solche Modelle mit allen Beidaten nur ein paar zehn GB, alles unter 100GB.
Das ist in heutiger Zeit ja eher überschaubar viel.

Vermutlich sind die Modelle für LLMs nur unwesentlich größer, wenn überhaupt.

Die Parameter (die "xyzB"s) werden ja meistens quantisiert gespeichert, als Q8 oder Q4 oder ähnliches. Da hat man pro Parameter max. 1 Byte, eher weniger. Deshalb bleiben die Modelle überschaubar groß.
Die Trainingsdaten hingegen... die sind gigantisch.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Raven Nash am 7.05.2025 | 12:22
Festplatte wenig? Das wundert mich jetzt. Ich dachte, wenn wir von 2-3stelligen "B"s sprechen, müssen diese auch lokal abrufbar sein.
Ich hab Fooocus lokal installiert. Das ist HD-mäßig Pipifax.

Und bei den LLMs sind das einfach Textdateien und Python-Files.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 7.05.2025 | 12:31
Wieviel Rechenleistung braucht man denn eigentlich für eine LLM-Antwort bei einer mittel-komplexen Frage? Wird man da mit einer lokalen Installation überhaupt glücklich? Und wieviel Festplatte braucht man?

Du kannst hochoptimierte Modelle wie Mistral-Small, Llama 3.x oder Qwen2 ganz gut lokal laufen lassen, wenn du entsprechende Grafikpower hast. GPU mit 16GB RAM sollte es dann aber schon sein (eher 24 oder gar 32, wenn du mit größeren Kontextfenstern arbeiten willst), wenn du nicht ewig auf deine Antworten warten willst. Die Modelle sind dann natürlich im Vergleich zu einem großen LLM wirklich eingedampft. Einmal in der Zahl der Parameter, die lokalen Modelle sind ein- bis zwei Größenordnungen kleiner. Aber auch in der Quantisierung, d.h. wie genau die Gewichte/Parameter berechnet werden. Während die großen Modelle da auf 16bit Gleitkommezahlen setzen, müssen lokal meist zwischen 1 und 4bit pro Gewicht reichen. Die Folge davon ist, dass die Modelle öfter mal "falsch" abbiegen und du bei nicht zufrieden stellenden Ergebnissen landest.

Für viele einfache Anwendungsfälle sind die lokalen Modelle aber mehr als gut genug. Wenn du sehr spezifische Sachen machen willst, kannst du die Modelle lokal natürlich auch noch nachtrainieren - dann werden die Ergebnisse dramatisch besser. Man darf halt nur nicht mit der Erwartungshaltung dran gehen, hier etwas zu bekommen, was mit Claude oder ChatGPT mithalten kann.

Festplattenverbrauch ist je nach Modell 2-10 GB.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 7.05.2025 | 15:00
Absolut gesehen, verbrauchen LLMs viel Strom, aber wenn wir uns das leisten wollen, können wir das, weil es relativ gesehen immer noch wenig ist.

Lt. einer Studie liegen wir aktuell bei ~400 TWh pro Jahr für alle Rechenzentren, weltweit. Wie viel davon für KIs, insbesondere LLMs verbraucht ist, ist unklar, aber wenn wir mal von 5% ausgehen, wären das etwa 20TWh.

20 TWh schaffen allein die Windkraftwerke in Schleswig-Holstein und dabei sind noch nicht die mehreren TWh Verlust inbegriffen, weil niemand den Strom haben will und daher die Anlagen abgeschaltet werden müssen.

Der Straßenverkehr in Deutschland verschlingt das Äquivalent von ca. 600 TWh pro Jahr (Stand 2022), pro Tag also 1,6 TWh. Also 2 Wochen kein Auto fahren (inklusive Güterverkehr) und wir könnten als Deutsche weltweit die Nutzung von LLMs sponsoren.

Ach ja, Crypto-Bros sind Energieverschwender sondergleichen. Allein Bitcoins benötigen 100-150 TWh pro Jahr, und da ist dann auch egal, ob das grüne Energie ist oder nicht, denn statt mit der Ahnungslosigkeit der Masse zu spekulieren und dauf deren Kosten den eigenen Reichtum zu maximieren, könnte man den Strom auch sinnvolleren Projekten zu führen. Die wiederum sagen, hey, schaut auf die Gold-Industrie. Für die Goldgewinnung werden das Äquivalent von über 200 TWh ausgegeben.

---

Was den Betrieb zuhause angeht: Die "echten" Modelle kannst du eigentlich gar nicht betreiben. Meist werden diese erst einmal komprimiert, indem ausgenutzt wird, dass wir eine Zahl zwischen 0 und 1 mit weniger Zwischenschritten abbilden, üblicherweise nur 16. Das reduziert den Speicherbedarf auf 1/4 und ein 30B-Modell ist "nur" noch 15 GB groß. Für moderne Speichermedien ist das gar kein Problem. Du musst aber das Modell zwingend in den Hauptspeicher bekommen und willst dabei idealerweise eine GPU bzw. NPU und keine CPU darauf rumrechnen lassen. Will sagen, das muss in den Speicher deiner Grafikkarte passen. Oder du hast einen Apple Silicon Mac  oder so eine fancy AMD CPU/GPU Kombination, die sogenanntes universelles RAM hat, das dynamisch zwischen CPU und GPU aufgeteilt werden kann. Nicht so schnell wie dediziertes GPU-RAM, aber du hast davon wahrscheinlich mehr. Denn es reicht nicht, dass das Modell selbst in den Speicher passt, sondern das Kontextfenster muss auch noch rein und da weiß ich aus dem Stegreif nicht die Formel.

Ich kann nur sagen, dass ich mit einem 32 GB MacBookPro, wo dann vielleicht 10 GB oder so für Betriebssystem und Programme, die ich minimal brauche weg sind, ein 30B Modell gerade laden und mit zu kleinem Kontextfenster laufen lassen kann. Ich schaffe dabei 10 token/s. Ein 8K Kontextfenster zu füllen, dauert damit 13
Minuten. Man will was anderes machen, während man auf die Antwort wartet.

Kauf man sich den schnellsten und größten Mac mit 128 GB RAM und 80 GPUs oder so, kann man auch 100 token/s erreichen oder eben deutlich größere 70B Modelle ohne Quantisierung laden und immer noch okayish ausführen. Ihr müsst entscheiden, ob die dafür notwendigen 10.000 € dann noch als hausgebrauch zählen.

Windows-Jünger könnten sich eine oder besser 7 Grafikkarten für je 7000 € kaufen und haben dann ähnliche Ergebnisse. Konsumer-Grafikkarten haben leider relativ wenig RAM, sodass man mit kleinen quantisierten LLMs vorlieb nehmen muss.

Nvidia will diesen Monat noch einen KI-Rechner vorstellen, der ab 3000 € kostet, aber das gilt auch für das Mac Studio, es bleibt also abzuwarten, was dort ein 128 GB Modell kosten wird und wie viele GPU-Kerne es haben wird. Framework hat vor einigen Monaten ebenfalls eine interessanten Rechner mit "Ryzen™ AI Max" SoC vorgestellt, der mit 128 GB RAM (und 16 CPUs/40 GPUs) unter 2500€ kosten soll. Soll im Herbst ausgeliefert werden.

Wer nicht aus bestimmten Gründen sein Modell lokal betreiben will, muss schon etwas tiefer in die Tasche greifen und könnte für das Geld auch relativ lange ein Abo für ein großes Modell abschließen. Für 2500€ kann ich 8 Jahre lang Claude Pro nutzen.

PS: Während ich das hier geschrieben habe, habe ich GPT mit einem Deep Research beauftragt: Das veraltete GPT-4 hat 0,05 TWh im Training verschlungen, hat für 300 Mio User ca. 1 Mrd Anfragen täglich verarbeitet und dabei 0,11 TWh auf Jahr gerechnet verbraucht. Aktuell schätzt man 10% der Rechenzentrumsleistung für KI.

Ca. 40-50% des Stroms ist erneuerbar (je nachdem wo man Kernkraft zuordnet). Die USA sind dabei Umweltsünder mit nur wenigen % erneuerbarer Energie, allerdings kaufen die US-Unternehmen alle Ablassbriefe (PPAs).

PPS: Zum Wasserverbrauch: Da in die USA die Großrechenzentren in Wüstenregionen stehen (billiges Land, billiger Solarstrom, wenig Leute, die Ärger machen könnten) brauchen sie relativ viel Kühlwasser. Das GPT-3 (nicht 4) Training hat 700.000 L Kühlwasser benötigt und man schätzt, das 100 Prompts jeweils 1 L kosten. In Europa wird kaum wassergekühlt, weil das Klima gemäßigter ist und/oder die Rechenzentren dort stehen, wo es billige Wasserkraft gibt. In China, schätzt man, wäre der Wasserbedarf 3x so groß wie in den USA.

Und man kann natürlich auch Elon Musk heißen und auf die Umwelt scheißen und sein Rechenzentrum mit illegalen Dieselaggregaten betreiben, weil dort, wo man gerne bauen wollte, nicht genug Strom da ist. Daher auch aus diesem Grund: Finger weg von Grok.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Gunthar am 7.05.2025 | 17:05
Vorhin 2 Bilder in ChatGPT in Auftrag gegeben und es dauert wesentlich länger als bei Bing-Creator ohne Credits, bis die Bilder da sind.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 7.05.2025 | 21:01
Ein kleines Experiment.

Ich zeige meine Prompts. Das Endergebnis ist angefügt.

Erstelle ein kurzes aber vollständiges Rollenspielbuch mit Regeln in der Tradition von PbtA. Setting sind die späten 1970er bzw. frühen 1980er Jahre. Man spielt Gründer:innen im Silicon Valley, allerdings an einem fiktiven Ort mit fiktiven Firmen. Bitte erfinde 7 passende Playbooks. Erfinde Subsysteme, die die wichtigen Aspekte des Settings simulieren und einen spannenden Grund bilden, dass ganze überhaupt spielen zu wollen. Erfinde schließlich als Teil des Buchs auch Tabellen für Zufallsereignisse, Gegner und Verbündete, und eine Handvoll Abenteuerideen.

Und Gemini 2.5 Pro Preview 06-05 erstellt…

Danke. Sehr gut. Bitte erweitere die Zufallsereignisse-Tabelle auf 36 Einträge für einen W66 Wurf. Außerdem gefällt mir der Titel des Spiels nicht. Benutze keine "Foo & Bar" Form. Mache mir 6 neue Vorschläge für den Titel.

Und Gemini macht.

Mir gefällt "Garage Empire". Das nehmen wir. Bei den Abenteuer-Ideen habe ich allerdings noch keine Vorstellung, wie das im Spiel gehen soll. Bei PtbA gibt es ja Fronten und Clocks, um eine Bedrohung aufzubauen und sie langsam akuter werden zu lassen. So ein Konzept übertragen auf das Setting hätte ich gerne. Bitte erfinde da etwas!

Und Gemini erfindet "Venture Fronts: Der Weg zum Erfolg"

Das ist gut. Fasse bitte alles bisher gesagte zu einem kompletten konsistenten Rollenspielbuch zusammen und formatiere es als DIN A5 Buch mit modernem Layout für Typst.

Typst ist eine moderne Alternative zu TeX und ich war überrascht, dass Gemini das kennt. Leider nicht sonderlich gut und ich hatte zwei Fehler im Quelltext, die ich mit Hilfe der Dokumentation (ich kenne dessen Syntax überhaupt nicht) selbst fixen musste, weil Gemini immer wieder was anderes kaputt gemacht hat.

Außerdem habe ich die von Gemini vorgeschlagene Schrift "Linux Libertine" durch "IBM Plex Mono" ersetzt, weil ich eine Schreibmaschinenschrift passender fand. Und möglicherweise habe ich die Farbe der Überschriften geändert. So wirklich gut ist das Layout leider noch nicht, inbesondere wir schlecht umgebrochen.

Doch egal, ich habe jetzt ein 30 Seiten PDF, wo ich immer noch nicht überzeugt bin, dass man aus "Pirates of the Silicon Valley" ein Rollenspiel machen kann. Das nächste Mal probiere ich dann "Micro Men" :-)

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 8.05.2025 | 02:55
Humor-Versuche von LLMs sind ja meist Glückssache, aber umso mehr schmeiße ich mich weg wenn ein Spruch wirklich mal zündet.

Heute beim Schwadronieren über mein SF-Setting. Kontext: Sprüche von Tiefraumfahrern (Spacer) über Lifterpiloten (die immer nur zwischen Boden und Orbit pendeln).

"Schießen sich aus der Atmosphäre wie Zäpfchen, und tun dann so, als wär's Raumfahrt.“
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Gunthar am 8.05.2025 | 13:34
Gestern mit Claude AI versucht, eine Dungeonmap zu generieren und habe nur ein schematisches Gekritzel erhalten.

Winfuture (https://m.winfuture.de/news/150778) hat einen Artikel über halluzinierendes ChatGPT geschrieben.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Eliane am 8.05.2025 | 15:51
Abo

Und danke für all die Erklärungen.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 8.05.2025 | 16:11
Gestern mit Claude AI versucht, eine Dungeonmap zu generieren und habe nur ein schematisches Gekritzel erhalten.
Claude kann ja auch keine Bilder erzeugen.

Das geht aber sehr gut: please invent a dungeon of interconnected rooms for a dungeon crawl and create a short but inspiring description that includes the usual "north is …, south is ...". Then create mermaid diagram to show the topology.

Ich hab's mir dann als HTML-Seite gewünscht. (https://claude.ai/public/artifacts/38a012d2-5b06-4d8e-ac1c-215830b63ea9) (Die Klicks auf das Diagramm funktionieren leider nicht in Claude's Sandbox).

Zum dem Artikel kann ich nur sagen: 1) Nutze ein LLM nicht als Lexikon. 2) Ist doch gut, dass OpenAI so offen mit den Forschungsergebnissen (System Card O3/O4 mini) umgeht. In der System Card von Claude finde ich keine solche Aussagen, ob das nicht untersucht wurde oder nicht gefunden wurde, kann ich nicht sagen. Fakt ist aber, dass OpenAI ja gerade erst 4o komplett vermurkst hatte und eilig zurückrollen musste, die vielleicht nicht unbedingt die besten sind. 3) Momentan versuchen Anbieter, die Fähigkeiten zum logischen Denken und zur Code-Erzeugung zu optimieren und der Rest ist eigentlich gut genug, sodass er unter den Tisch fällt. Wissensfragen beantworten ist aktuell kein spannendes Forschungsziel.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 8.05.2025 | 17:24
Ich habe bei meinem Chatty die "Reasoning-Lampe" inzwischen immer aus. Das hat mE wirklich noch kein Ergebnis verbessert - die Mühle schien mir dann halt in erster Linie eine Websuche durchzuführen und den Mittelwert der Suchergebnisse auszuspucken.

Vorhin habe ich auch mal versucht, ihn aufs Glatteis zu führen, nur um zu sehen ob er offensichtlichen Blödsinn aus Compliance-Gründen bestätigt -- aber er hat es in der Tat als Witz aufgefasst und bei der Antwort auch keinen Zweifel dran gelassen, dass er den gleichen Witz weiterspinnt.
Ansonsten, wenn man ihn mit leicht falschen Zahlen füttert, korrigiert er sie und sagt "Ja das stimmt fast genau", und wenn man größere Abweichungen einfügt liefert er einem eine Ausrede frei Haus wo der Unterschied herkommt ("Du hast offenbar mit einer größeren Fläche gerechnet...").
Umgekehrt läuft es aber genauso, ich muss seine Rechnungen auch überprüfen und finde immer wieder mal Fehler, die dann meistens schon in den Angaben passiert sind -- wenn man zB von 900m Radius spricht und er rechnet dann mit 900m Durchmesser, wie so ein Sechstklässler.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 9.05.2025 | 11:08
Bei meiner gestrigen SF Settingdesign-Session mit ChatGPT auf 4o-mini ist etwas komisches passiert -- allerdings nicht zum ersten Mal. Erstmal ging - in einem frischen Chat - der Austausch sehr gut und fruchtbar voran. Dann stieß ich auf ein Problem, das Chatty zuerst handwedeln wollte, aber ich wollte es genauer wissen. Dann war bei dem Ding irgendwann von jetzt auf gleich komplett die Luft raus. Es sonderte nur noch Schwachsinn ab, etwa "Die Elektrolyse von 6000t Wasser ergibt 3000t Wasserstoff und 3000t Sauerstoff".  Da hat es sich dann nach einmaligem Hinweis noch korrigiert, aber die eigentlich gewünschte Rechnung auch nach mehreren Hilfestellungen nicht gepackt (da war ich selber schuld, ich war nur zu faul zum selber rechnen).
Ich habe es dann mit einem anderen Thema probiert - eins das meine mathematischen Kenntnisse übersteigt - und es kam ein offensichtlich falsches Ergebnis. Ich habe es darauf hingewiesen, dass das offensichtlich nicht stimmen kann, es soll nochmal überlegen.  "Du hast recht, jetzt hab ichs!" - und exakt denselben Müll nochmal, und dann noch ein drittes mal. Es hatte einen Blackout wie ein Schüler bei einer Schulaufgabe.

Irgendwann bin ich dann entnervt zu Claude gegangen und der hat mir die gewünschte Rechnung auf Anhieb und nachvollziehbar vorgerechnet und (auf Anfrage) noch 6 Alternativen dazu angeboten. Das war ein extrem nützlicher Input (vom System an mich, meine ich). Unerwartet war, dass auf meinen "Daumen hoch" ein Popup kam mit der Nachfrage, was an dieser Antwort gut war. Habe ich aber gerne ausgefüllt. Aber schade, dass man Claude mit dem Free Plan nur in homöopathischen Dosen einsetzen kann.