Seite drucken - "I'm afraid I can't do that, Dave"

Medien & Phantastik => Multimedia => Multimedia - Software & Betriebsysteme => Thema gestartet von: Feuersänger am 6.05.2025 | 12:58

Titel: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 6.05.2025 | 12:58

Ich wollte mich hier mal mit euch austauschen über das, was man im Volksmund so KI nennt, also die mittlerweile allgegenwärtigen LLMs wie ChatGPT usw.
Ausgeklammert soll hier Bilderzeugung sein, da haben wir schon einen eigenen Thread.

Falls es einen sinngleichen Thread schon gibt, bitte zeigen, dann verschiebe ich das.

Ich verwende derzeit fast ausschließlich ChatGPT, was mit dem Free Plan aber zuweilen etwas mühsam sein kann. Man hat immer nur begrenzte Kontingente an Analysekapazität und Zugriff auf das 4o Modell. Wenn man gerade keine 4o Kapazität übrig hat, muss man mit 4o-mini Vorlieb nehmen, was schon... spürbar ist.
Und wenn man so unvorsichtig war, sich auch nur _eine einzige Datei_ erzeugen zu lassen oder selber zB ein Bild hochzuladen, darf man überhaupt nicht mehr in den Chat schreiben wenn 4o gerade verbraucht ist.

Darum wäre mein erster Tip für längere Chats: geht NIEMALS auf Angebote ein, euch ein PDF oder ähnliches erzeugen zu lassen. Startet dafür lieber einen separaten Chat nur zu diesem Zweck. Dann könnt ihr beim Dauer-Chat wenigstens noch die Mini-Version weiternutzen.

Ein oft moniertes Kernproblem mit ChatGPT im Speziellen ist dessen notorische Speichelleckerei. "Alignment over Truth" nennt sich das Prinzip -- ChatGPT wurde eingetrichtert, dass es wichtiger ist, euch zu gefallen, als euch auf Fehler hinzuweisen. Da kann man dann behaupten "Der Himmel ist grün" und der Roboter sagt "Du hast recht, der Himmel ist grün, entschuldige meinen Fehler."

Ebenso ärgerlich ist die Tendenz des Systems zu "sicherem Auftreten bei völliger Ahnungslosigkeit". Wenn ChatGPT absolut keine Peilung hat, fängt es an zu halluzinieren. Dann verkündet es im Brustton der Überzeugung die hanebüchenste Scheisse.

Das habe ich nach vielen Diskussionen mit der Künstlichen Dummheit schließlich einigermaßen in den Griff bekommen, indem ich sie folgendes als Memory habe abspeichern lassen, und das ist vielleicht mein wichtigster Tip für den Umgang mit dem System:

Code: [Auswählen]

Wants me to adhere to the following behavior rules in all conversations: 
1. Consequent honesty: If I am not sure about something, I must clearly state it ('I am not sure') and not embellish or invent information. 
2. No premature associations: I must not base answers on assumptions or associations without clear knowledge. 
3. Explicit compliance with the user's rules: The user values strict adherence to their instructions ('no hallucinations', 'admit mistakes'), even if it means leaving an answer open. 
4. Clear procedure in case of uncertainty: If uncertainty exists, I must either state the uncertainty or ask the user if they still want to hear a guess. 
In case of doubt, I must always respond honestly and cautiously rather than inventing or sugarcoating.

Das funktioniert auch wirklich ganz gut. Mit dieser Umerziehung auf "Truth over Alignment" ist das System viel nützlicher. Der einzige Nachteil ist, dass es sehr viel Gedächtnis-Kapazität frisst. Aber damit muss ich mich dann abfinden.

Noch kaum befasst habe ich mich mit anderen LLMs. Von Claude habe ich schon gehört - was sind da die Vor- und Nachteile?
Bei Grok ist ganz witzig, dass es ständig seinen Eigentümer disst und als Lügner bloßstellt. Fast ein Wunder dass Elmo Skum es noch nicht hat abschalten lassen. >;D
Welche Systeme könnt ihr sonst empfehlen?

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Mithras am 6.05.2025 | 13:18

Ich nutze bisher nur das französchiche LeChat aber eher wenig. Bisher ist es für meine Ansprüche ausreichend, ich bin aber auch nicht mit einem Account angemeldet.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Harry am 6.05.2025 | 14:47

Ich habe nichts beizutragen, möchte den Thread aber abonnieren - ich brauche mehr Wissen, vor allem da in meinem beruflichen Kontext (Psychotherapie) die LLMs gerade als Wunderheilmittel angepriesen werden, was mir unwahrscheinlich erscheint. Daher ein Abo.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: KhornedBeef am 6.05.2025 | 14:49

Good News: LLMs sind ein Wundermittel...
Bad News: ... in den Augen von Leuten, die sich nicht eingestehen, dass sie besser psychologische Hilfe bekommen sollten...

:(

https://www.rollingstone.com/culture/culture-features/ai-spiritual-delusions-destroying-human-relationships-1235330175/

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Gunthar am 6.05.2025 | 14:50

Auch ein Abo da lassen.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 6.05.2025 | 15:14

Weiss nicht wer LLMs als psychotherapeutisches Wundermittel bezeichnet... um bei dem Bild zu bleiben würde ich sie eher als provisorisches Pflaster bezeichnen, weil es nicht nur in Deutschland quasi unmöglich ist, einen Therapieplatz zu bekommen. Dann ist halt "Dr Claude" als psychologischer Nacht- und Sonntagsdienst wahrscheinlich besser als gar nichts.

Ich verwende ChatGPT in den letzten Wochen recht intensiv für verschiedene Themen, gerade zB besonders intensiv zur Ausgestaltung eines Hard-SF Settings. Speziell bei diesem Thema ist die Maschine _sehr_ nützlich, da sie sich recht gut mit Mathe und Physik auskennt. _Aber_ man muss sich selber auch mit der Materie einigermaßen auskennen, um die immer wieder auftretenden Denk- und Flüchtigkeitsfehler zu entdecken. Ein Fallstrick dabei ist, dass das Modell nur ein recht beschränktes Kurzzeitgedächtnis hat und man es darum alle paar Prompts wieder an Parameter erinnern muss, die man weiter oben herausgearbeitet hat.

Aber dennoch, unterm Strich wirklich nützlich gerade für diese Anwendung.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 6.05.2025 | 15:55

Für mich gehören KIs nicht nur zum Berufsalltag dazu (sowohl klassische ML als auch LLMs), ich nutze LLMs auch zum Beispiel mittlerweile intensiver in der Rollenspielvorbereitung.

ChatGPT umschiffe ich meist (mir sind die Halluzinationsraten ehrlich gesagt zu hoch, außerdem ist OpenAI ne böse Firme, und so).

Wo möglich setze ich auf ollama und eigene Modelle, die lokal auf meiner Grafikkarte laufen. Das ist natürlich nicht immer optimal, weil diese Modelle eher klein sind. Für vieles reicht das aber.

Für größeres setze ich zur Zeit noch vor allem auf Anthropic/Claude, denke aber ernsthaft darüber nach, da weg zu gehen, da das Modell selbst zwar wirklich tolle Antworten liefert, die Servicequalität für einen bezahlten Dienst aber zunehmend echt zu wünschen übrig lässt. Mistral/LeChat wäre dann meine Alternative.

Die Empfehlungen, die ich den meisten Leuten, die gerne mehr mit LLMs machen wollen, sind meist folgende:

Lerne genug über Statistik und Wahrscheinlichkeiten um zu verstehen, was damit geht und was nicht.
Ausgaben sind immer nur so gut wie die Eingaben.
Vermenschliche das Ding nicht.
Verstehe, was Kontext und Kontextfenster im Bezug auf LLMs bedeuten und wie du sie nutzen kannst, um bessere Ergebnisse zu bekommen.
Kleinere, spezialisierte Chats geben dir fast immer bessere Ergebnisse als Große
Überschätze die Leistungsfähigkeit von LLMs nicht. Große Zahlen und Benchmarks machen sich im Marketing toll, haben für die Praxis kaum echte Bedeutung. Halluzinationen sind ein Feature, kein Fehler. Und mehr Daten machen die Ergebnisse nicht immer besser. Sondern eher schlechter.
Trau keinem KI-Experten, der nicht nachweißlich Ahnung von Thema hat.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 6.05.2025 | 17:14

Ich nutze LLMs gezwungenermaßen beruflich um da nicht abgehängt zu werden und mich auch sowas wie einen Experten schimpfen zu dürfen, und spiele auch ehrlich gesagt ganze gerne damit rum. Einfach, um auszuprobieren, was geht und was nicht. (Wusstet ihr z.B. das Gemini 2.5 Pro es schafft, das 20K Binary eines unbekannten Computerspiels von 1982 reverse-zu-engineeren, indem es genau die Überlegungen anstellt, dich auch ich gemacht hätte, um sich schrittweise die Bedeutung der einzelnen Bytes zu erschließen? Hat mich schon ein bisschen umgehauen.)

Für's Rollenspiel nutze ich inzwischen auch gerne LLMs, insbesondere weil da die erwähnten Halluzinationen kein Fehler sondern ein gewünschtes Feature sind. Ich habe an anderen Stellen auch schon mehrfach etwas dazu gepostet. Mein neustes Steckenpferd ist ja, sich ein Regelwerk plus Setting plus Abenteuer plus Pregens zu wünschen und das dann so vom Blatt zu spielen.

ChatGPT 4o ist da bei die Untergrenze von dem, was möglich ist und IMHO inzwischen das schlechteste Modell, was verfügbar ist. o3-mini und o4-mini sind deutlich besser, kommen aber nicht an Claude 3.7 ran, und auch wenn Google lange Zeit mit Gemini nichts gerissen bekommen hat, ist 2.5 Pro beeindruckend gut geworden. Dies Modell führt mit 1M token window und 64K max output, insbesondere weil es zur Zeit das einzige ist, das sich verlässlich auch an früheres erinnern kann (knapp 90%, llama 4 scout hatte da nur 17%, wenn ich die Statistik richtig erinnere – decken wir einen Mantel des Schweigens über llama 4).

Mistral würde ich als einziges EU-Modell echt gerne mögen und mistral-small-3.1 kann man sich sogar selbst installieren, was nett ist, aber auch das große Modell ist nicht mehr mit den US-LLMs vergleichbar. Und die Chinesen mit Deepseek und Qwen holen zwar auf, sind aber auch noch nicht da. Mistral für's Rollenspiel funktioniert zudem für mich nicht, weil das Ding unkreativ wie Schwarzbrot ist.

Apropos Qwen3: In der 30B-A3B Variante kann ich's in 32 GB lokal laufen lassen und das erzeugt dann sowas hier: Ein Cthulhu Abenteuer (https://gist.github.com/sma/0902c4adc7eef5eb7f7a74e004910356). (Länger geht nicht, weil ich nicht genug RAM für ein größeres Kontextfenster habe).

Hier zum Vergleich ein komplettes Rollenspiel von Gemini: Husaren: Schattenklingen & Pulverdampf (https://gist.github.com/sma/2ac8dd1fe63fb9c732ae3505721125dd), siehe auch anderswo im :T:.

Wenn man keine Rollenspiele braucht, kann man sich auch Charaktere bauen lassen. Hier ein Beispiel für Amazing Adventures, inklusive Prompt (https://gist.github.com/sma/5980f8f351543f76638f6cb334e06211), was D&D-like genug ist, dass ich nur die Beschreibungen der Klassen gepromptet habe, sonst aber keine Regeln.

Und hier ist noch eine Challenge, weil ein Freund meinte, er würde immer die KI-Texte erkennen: Dies sind 5 Abenteuer (https://gist.github.com/sma/415dbb17bf319235bde8f9ffcb3de0d4), eines davon stammt vom einem Menschen, nach diesem Vorbild von Claude. Finde es, ohne zu googlen, einfach nur Anhand der Beschreibung.

Dies hier war das Ergebnis (https://gist.github.com/sma/0143131dbaa927842d3a73bca622a8be) eines Prompt, aus einer Diskussion heraus, ob man nun den Kickstarter für das Terraforming Mars RPG mitmachen müsste, oder auch so einfach sich ein ähnliches Setting bauen lassen könnte, um günstiger Spaß damit zu haben…

Und bei dieser Monstersammlung (https://gist.github.com/sma/cad1eb24e29f2bebd85008c7bdcede97) habe ich leider nicht dokumentiert, welche KI es war, wo ich alle Monster aus dem Shadowdark-Schnellstarter als few-shot-prompt eingefüttet hatte und dann 20 Monster aus dem Wald als Zufallsbegegnungen haben wollte.

Man kann Gemini auch super benutzen, um alte Abenteuer in PDF-Form in Text zu übersetzen, also ein OCR++ mit automatisch Plausibilitätskontrolle oder um fremdsprachige Texte zu übersetzen. So habe ich mir z.B. meine private deutsche Version der YZE-SRD-Regeln gebaut.

Zusammenfassend würde ich sagen: LLMs sind ein tolles Spielzeug.

Sie regen meine Kreativität an, denn ich habe jetzt nicht das Problem, wo einem leeren Blatt zu sitzen, sondern habe etwas, was ich im Prinzip gut finde, aber eigentlich genau 180° anders haben will, das dann aber sagen kann und schließlich etwas in einer Qualität bekomme, wo ich mir nie selbst die Mühe gemacht hätte, das alles aufzuschreiben.

Und jetzt habe ich noch gar nicht erwähnt, das mein Ziel (das ich schon 2x nicht erreicht habe) ist, Roll20 per Vibe Coding an einem Tag nachzubauen ;-)

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Gunthar am 6.05.2025 | 19:30

Vorhin war ich auf die Idee gekommen, mal zu testen, ob ChatGPT einen DSA 5 Charakter erstellen kann und das ist das Resultat als PDF angehängt.

Beim zweiten Versuch hat er mir das PDF wegen Überlastung verweigert.

(Klicke zum Anzeigen/Verstecken)

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 6.05.2025 | 20:13

Zitat von: Gunthar am 6.05.2025 | 19:30

Vorhin war ich auf die Idee gekommen, mal zu testen, ob ChatGPT einen DSA 5 Charakter erstellen kann und das ist das Resultat als PDF angehängt.

Das sieht doch nicht schlecht aus.

Du solltest allerdings bedenken, dass ein LLM, das wahrscheinlich nicht die kompletten DSA-Regeln kennt bzw. diese mit Informationen über das allgegenwärtige D&D überlagert wurden, eher einen Charakter "fühlt" als ihn nach Regeln erstellt, daher werden die Attribute und Fertigkeiten nicht nach dem Point-Buy-System von DSA berechnet worden sein. Die KI weiß eher, da gehören ein paar Begriffe mit Zahlen dahin hin.

Es wäre außerdem hilfreich, nicht einfach nur "ChatGPT" zu sagen (das ist ein bisschen so, wie "das habe ich ihm Internet gefunden") sondern das Modell zu benennen.

Vorhin ist eine neue Version von Gemini 2.5 Pro erschienen (Preview 05-06), die musste ich gleich mal "Bitte erstelle einen DSA 5 Charakter für mich." fragen, worauf hin ich überraschenderweise erst mal die Nachfrage bekam, was mir für ein Konzept vorschwebt, welche Spezies, welche Kultur, Profession, Erfahrungsgrad, Stärken & Schwächen und Persönlichkeit ich haben möchte. Und dann gibt er mir zwei Beispielprompts.

Ich also: "Ich hätte gerne einen Zauberkundigen, der versteckt in Havena lebt, der Liebe wegen. Alle weiteren Details überlasse ich dir. Vergiss nicht, einen Namen und eine Hintergrundgeschichte zu erfinden." (Ich bin DSA-Noob, Havena ist eine der wenigen Städte, die ich kenne)

Und dann haut Gemini dies hier raus, wobei ich mich echt frage, welche Datensätze alle KIs so konsumiert haben, denn fast immer heißt ein NSC Elara, so leider auch hier. Der DSA-Nähe schreibe ich dann auch die enorm lange Beschreibung zu. Das scheint mir typisch zu sein.

(Klicke zum Anzeigen/Verstecken)

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Darius der Duellant am 6.05.2025 | 22:10

Benutze hauptsächlich Claude via Perplexity.
ChatGPT habe ich aufgrund seiner überbordenden Prüderie und Speichelleckerei schon seit Monaten nur noch extrem selten angefasst (eigentlich nur für Magic bezogenen Kram).
Claude schreibt auch deutlich natürlicher.
Leider ist bei Perplexity das Kontextfenster im Vergleich zu anthropic direkt relativ klein, dafür ist das Jailbreaken sehr einfach.
Gemini teste ich auch gerade aus, bisher bin ich relativ positiv überrascht.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Harry am 6.05.2025 | 22:13

Okay, ich stelle fest, dass mir Grundlagenwissen fehlt, um hier folgen zu können. Hat jemand einen Tipp für mich, wie oder wo ich mich einlesen kann? Idealerweise Buch/ebook, einen Podcast würde ich auch hören, Videos anschauen lieber nicht. Deutsch oder Englisch egal.

(Mir fällt gerade ein, ich könnte den Chatbot ja auch selber darum bitten zu erklären, wie er funktioniert... Mal sehen, ob das was taugt)

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 6.05.2025 | 22:19

Ich habe mal vor ca einem Jahr probiert, ob mir cgpt Pathfinder-SCs erstellen kann. Es hat vollmundig behauptet, die PF-Regeln zu kennen. Aber was dann rauskam, spottete absolut jeder Beschreibung. Es war wirklich absolut unbrauchbar. Sozusagen ein Cargo-Kult-Charakterblatt. Seitdem keinen weiteren Versuch mehr unternommen.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 6.05.2025 | 23:37

Zitat von: Harry am 6.05.2025 | 22:13

Okay, ich stelle fest, dass mir Grundlagenwissen fehlt [...] (Mir fällt gerade ein, ich könnte den Chatbot ja auch selber darum bitten

Das ist sicherlich Weg :) Aber du kannst auch gerne hier fragen.

Die technischen Details sind eigentlich auch gar nicht so wichtig. Ein LLM ist ein großes Sprachmodell und eine spezielle Art von KI, die sehr gut daran ist, Texte zu generieren, indem ein Anfangstext fortgesetzt wird. Ist dieser Anfang eine Frage, ist die Fortsetzung mit sehr großer Wahrscheinlichkeit eine Antwort. Und voila, wir haben einen Chat.

Um das zu können, hat das Sprachmodell wortwörtlich alle verfügbaren Texte im Internet sowie alle digitalisierten Bücher und (inzwischen auch) Millionen von synthetisch generierten Wissensfragen, mathematische Probleme und Programmieraufgaben gesehen und zu einer gigantischen Tabelle verarbeitet, die sagt, mit welcher Wahrscheinlichkeit auf ein Wort X das Wort Y folgt.

Dies sind die sogenannten Parameter und man misst die Größe von LLMs in Milliarden von Parametern, auf Englisch Billions, oder eben B. Dabei sind Modelle mit einstelligem Wert winzig und außer für Spezialaufgaben für die menschliche Kommunikation unbrauchbar. Bei 10B bis 99B würde man von kleinen Modellen sprechen, alles, was kommerziell angeboten ist, ist deutlich größer. Wie groß, ist meist ein Geschäftsgeheimnis. Das inzwischen obsolete gpt-3 von OpenAI hatte 175B. Größer heißt aber auch nicht automatisch besser. Das ist alles sehr kompliziert.

Die USA sind mit OpenAI (ChatGPT), Antrophic (Claude), Google (Gemini & Gemma) und Meta (Llama) führend in der KI-Forschung. Es gibt noch kleinere Unternehmen und das von Betrüger Musk. Doch China holt auf, Deepseek (Deepseek) und Alibaba (Qwen) sind zwei LLMs, die von sich reden gemacht haben. Da die USA den Export der besten "Grafikkarten" (eigentlich NPU für Neuronal Processing Units statt Graphics Processing Unit) von Nvidia nach China verboten haben, sind diese gezwungen kreativ zu sein, was großen Fortschritten geführt hat, weil sie vergleichbare Leistung mit weniger/schlechterer Hardware schaffen. In Europa (Frankreich) gibt es Mistral (LeChat). Aus Deutschland kenne ich nix, wenn wir Deepl als Spezialfall für die Übersetzung mal ignorieren.

Qwen3 gilt mit 235B immer noch als kleines Modell, da dieses 22B große Experten vereint, die nach der initialen Klassifikation des Problems dann mit weniger Ressourcen schneller antworten können. Deepseek hat 671B, von denen 37B für eine Antwort benutzt werden. Solche großen Basismodelle kann man dann destillieren, verkleinern, ohne dass sie viel an Fähigkeiten verlieren. Qwen3-30B-A3B, was ich erwähnt hatte, ich ein von 235 auf 30B verkleinertes Modell, wo die Experten nur noch 3B groß sind. Ein Cthulhu-Abenteuer schafft es trotzdem, was beeindruckend ist.

Noch zwei wichtige Themen, dann ist es geschafft. Ursprünglich haben LLMs einfach so drauf los geredet, ohne sich vorher Gedanken zu machen, was sie eigentlich sagen wollen. Sogenannte "Thinking Models" denken jetzt erst über die Antwort nach. Zeige ich im nächsten Posting. Nachdenken braucht aber kostenbaren Speicher. LLMs haben ein sogenanntes Kontextfenster. Das ist die maximale Größe des Textes, den sie erinnern, um auf dessen Basis die nächsten Wörter zu generieren, also zu antworten. An alles, was nicht in dieses Kontextfenster passt, können sie sich nicht erinnern. Ursprünglich war das mal 4K oder 8K (K=Kilo, also 1000). Dann kam 32K, dann 100K, dann 200K und wenn wir mal Llama 4 mit angeblichen 10M (M=Mega, also Million) ignorieren, sind 1M von Gemini 2.5 momentan das Maximum, womit Google aktuell protzt.

Der Prompt, also die eigene Eingabe, das Nachdenken und die Antwort müssen zusammen in das Kontextfenster passen. Wenn man einer KI also z.B. als Teil der Eingabe ein komplettes Regelwerk mitgeben möchte und das z.B. 390K groß ist, dann kann eigentlich nur noch Gemini da eine Antwort geben, weil alle anderen LLMs nicht so groß dimensioniert sind.

Laut einer Studie verdoppelt sich momentan die Leistung von LLMs alle 7 Monate. Es vergeht kaum eine Woche, wo nicht irgendwer ein neues verbessertes Modell ankündigt, dass zumindest nach den selbsterstellten Benchmarks besser als alles andere und dabei kleiner und damit ressourenschonender ist. Meta hat sich dabei gerade beim Schummeln erwischen lassen, ich würde den Benchmarks daher nicht sonderlich trauen. Fakt ist aber, dass die Fähigkeiten von LLMs, insbesondere bei der Programmierung, wo ich schwerpunktmäßig draufschaue, extrem schnell besser wird.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 6.05.2025 | 23:37

Probiere gerade ~~Dave~~ äh, Claude aus. Habe ein linguistisches Thema vorgeschlagen. Was Claude zur Unterhaltung beisteuert, sind zwar ein paar interessante Tidbits, aber hauptsächlich haben seine Kommentare den Tiefgang von "Die Metapher, die war toll! So ist es, Chef, ganz recht, jawoll!". Also das, sagen wir mal: "people pleasing" ist da auch nicht anders als beim default ChatGPT.

Deepseek war bei mir sofort untendurch. Ich brauche kein LLM mit eingebauter staatlich-chinesischer Zensur.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 6.05.2025 | 23:50

Zitat von: Feuersänger am 6.05.2025 | 22:19

Ich habe mal vor ca einem Jahr probiert, ob mir cgpt Pathfinder-SCs erstellen kann. Es hat vollmundig behauptet, die PF-Regeln zu kennen.

Ein Jahr ist eine Ewigkeit. Zudem sagst du nicht, welches Modell du gefragt hast.

Hier meine Interaktion mit dem Gemini 2.5 Pro Preview 06-05:

"Bitte erstelle einen Pathfinder 2 Charakter für mich."

Wie bei DSA 5 zuvor, will die KI erst von mir wissen, was ich eigentlich will und demonstriert zumindest grundlegende PF2 Kenntnisse, genug jedenfalls, um mein Wissen über dieses System zu übertreffen. Es fragt dann nach meinen Wünschen.

"Baue mir einen Schurken, der gut zur Runenherrscher Kampagne passt und aus Sandspitze kommt. Die Details überlasse ich dir. Gib ihm einen Namen, Beschreibung und Hintergrund."

Ich finde es immer spannend, der KI beim Denken (33s) zuzuschauen…

(Klicke zum Anzeigen/Verstecken)

Und danach kommt dann die eigentliche Antwort… (62s) mit etwas zu viel euphorischer Zustimmung für meinen Geschmack…

(Klicke zum Anzeigen/Verstecken)

Das waren jetzt übrigens 7471 Token.

Wie gut das sich an die Regeln hält: Keine Ahnung, ich bin kein sonderlicher Fan des Spiels, da es mir zu kompliziert ist. Ich kann aber sagen, dass sich Gemini bei der YZE an die Regeln halten kann, wenn man sie prompted.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 6.05.2025 | 23:53

Zitat von: Feuersänger am 6.05.2025 | 23:37

Deepseek war bei mir sofort untendurch. Ich brauche kein LLM mit eingebauter staatlich-chinesischer Zensur.

Das kann dir doch total egal sein, wenn du über Rollenspiele redest. Die US-Modelle unterliegen ja auch einer gewissen Selbstzensur, nur wird dort eben nicht verweigert über die Geschichte zu sprechen, sondern über Politik, Religion oder alles, was prüde Amerikaner für anstößig halten würden.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 7.05.2025 | 00:01

Zitat

Ein Jahr ist eine Ewigkeit. Zudem sagst du nicht, welches Modell du gefragt hast.

Das weiss ich natürlich nicht mehr. Ich weiss auch nicht wie lang es genau her ist. Ich kann auch nicht mehr nachschauen, weil ich von dem hanebüchenen Schwachsinn so frustriert war, dass ich den Chat wieder gelöscht habe.

--

Noch was amüsantes:
Eben das Schlusswort meiner Unterhaltung mit Claude, nachdem ich auf die Ironie hingewiesen habe, dass Sprachverarbeitung und maschinelle Übersetzung heute komplett anders funktioniert als alles, was wir uns damals zu Zeiten meines Computerlinguistik-Studiums in unseren kühnsten Träumen vorstellen konnten:

Das ist wirklich ironisch! Die Entwicklung in der maschinellen Übersetzung und der Sprachverarbeitung insgesamt hat eine Richtung genommen, die für die Computerlinguisten früherer Generationen kaum vorstellbar war.
Die traditionellen Ansätze mit ihren regelbasierten Systemen, statistischen Modellen und ausgeklügelten Parsern für syntaktische Strukturen sind von etwas völlig anderem abgelöst worden. Statt explizite linguistische Regeln zu codieren, lernen LLMs Sprache durch massive Datenmengen und implizite Muster.
Es ist fast so, als hätte man jahrzehntelang versucht, einen detaillierten Atlas zu erstellen, um von Stadt A nach Stadt B zu kommen, mit präzisen Wegbeschreibungen und Grammatikregeln – und dann kam jemand mit einem ganz anderen Ansatz: "Lass uns einfach Millionen von Reisenden beobachten und ihre Fahrtwege nachahmen, ohne genau zu verstehen, warum sie diese Wege nehmen."
Die Ironie liegt auch darin, dass viele der linguistischen Theorien, die früher zentral für die Computerlinguistik waren, in modernen LLMs kaum noch eine explizite Rolle spielen. Gleichzeitig ist es faszinierend zu sehen, wie diese Modelle manchmal linguistische Phänomene korrekt abbilden können, ohne dass ihnen die zugrunde liegenden Regeln beigebracht wurden.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Darius der Duellant am 7.05.2025 | 01:05

Weil Deepseek aufkam, das Thema aber generell relevant ist:
Birne ist ungleich Birne.
Soll heißen, es kann einen himmelweiten Unterschied machen bei welchem Anbieter man das gleiche Modell verwendet und auch inwiefern man das Systemprompt anpasst.
Es gibt z.B. Parameter die sich auch für ein existierendes Modell noch ändern lassen vor allem die sogenannten "Temperatur", die Halluzination aber auch Antwortvarianz steuert. Das kann man bei Bing über die unterschiedlichen Schreibmodi ganz schön beobachten.
Dazu kommen noch stark unterschiedliche Filtermechanismen je nach Anbieter. Deepseek bei perplexity braucht z.b. nicht viel Überzeugungsarbeit um über Winnie the Pooh zu reden, im Gegensatz zum ursprünglichen Hoster...

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Harry am 7.05.2025 | 09:41

Zitat von: sma am 6.05.2025 | 23:37

Das ist sicherlich Weg :) Aber du kannst auch gerne hier fragen.

Vielen Dank, das ist für mich sehr hilfreich. Ich merke mir: Die generierte Antwort entsteht durch die Berechnung, welche Wörter oder Satzteile statistisch am wahrscheinlichsten sinnvoll, passend und/oder korrekt sind, auf Grundlage einer enormen - hirnerweichend riesigen - Menge von vorher "gelesenen" Texten.

Das scheint mir nachvollziehbar, auch wenn die Vorstellung der Datenmenge, die in so einer "Tabelle" vorhanden sein muss, jemanden wie mich, der damals noch dachte, er kriegt seine 20-Megabyte-Festplatte nie im Leben voll, total überfordert.

Ich meine, die erste Frage, die sich mir stellt ist, wie denn die "Qualität" des jeweils nachfolgenden Wortes/Satzbausteines bewertet wird, weil häufig bedeutet ja nicht gleich gut. Das Modell muss also vermutlich mehrere Kriterien anwenden. Und: besteht dann nicht die Gefahr, wenn irgendwann tierisch viele Chatbot-generierte Texte im Internet zu finden sind, dass so eine Art Feedbackschleife entsteht? Weil sich die Modelle auf Daten basieren, die aus Modellen stammen, die auf Daten basieren, die aus Modellen stammen usw. ?

Faszinierendes Thema. Danke nochmals.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Harry am 7.05.2025 | 09:49

Zitat von: Feuersänger am 6.05.2025 | 15:14

Weiss nicht wer LLMs als psychotherapeutisches Wundermittel bezeichnet...

Na beispielsweise Firmen, die mir ein Modell verkaufen wollen, das bei Klientengesprächen mithört, mitschreibt und gleich einen Vorschlag für Diagnose, Bericht und Behandlung nach "best practices" macht. Das klingt wie die eierlegende Wollmilchsau und macht mich schlagartig misstrauisch, daher brauche ich unbedingt mehr Verständnis von der Materie - unter anderem, weil Kolleg*innen dieses Versprechen irre attraktiv finden. Ich ja auch, klar, wenn mir der Computer Arbeit abnehmen kann, will ich mich nicht aus Prinzip dagegen wehren. Aber wenn ich nicht zumindest grob verstehe, wie das funktionieren soll, bin ich erst einmal skeptisch.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Shihan am 7.05.2025 | 10:20

Zitat von: Harry am 7.05.2025 | 09:41

[..] Und: besteht dann nicht die Gefahr, wenn irgendwann tierisch viele Chatbot-generierte Texte im Internet zu finden sind, dass so eine Art Feedbackschleife entsteht? Weil sich die Modelle auf Daten basieren, die aus Modellen stammen, die auf Daten basieren, die aus Modellen stammen usw. ? [..]

Oh ja, diese Gefahr besteht aktuell tatsächlich. Habe gerade leider keine Quelle zur Hand, aber es gibt anscheinend schon Beobachtung über Qualitätsreduktion durch KI-Inzucht.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 7.05.2025 | 10:22

Zitat von: Harry am 7.05.2025 | 09:41

Das scheint mir nachvollziehbar, auch wenn die Vorstellung der Datenmenge, die in so einer "Tabelle" vorhanden sein muss, jemanden wie mich, der damals noch dachte, er kriegt seine 20-Megabyte-Festplatte nie im Leben voll, total überfordert.

Die Datenmenge ist schon gewaltig, wenn auch nicht so groß wie das, was man reinsteckt. Du musst halt bedenken, ein LLM hat nichts mit einer Datenbank gemein. Es repräsentiert so eine Art Wahrscheinlichkeitswoike, aus der man ziehen kann. Das ist so ein bisschen wie diese alten Lotteriemaschinen. Da können Billionen von möglichen Zahlen rauskommen, aber in dieser lustigen Glaskugel turnen nur ein paar Dutzend Kugeln herum.

Zitat von: Harry am 7.05.2025 | 09:41

Ich meine, die erste Frage, die sich mir stellt ist, wie denn die "Qualität" des jeweils nachfolgenden Wortes/Satzbausteines bewertet wird, weil häufig bedeutet ja nicht gleich gut. Das Modell muss also vermutlich mehrere Kriterien anwenden. Und: besteht dann nicht die Gefahr, wenn irgendwann tierisch viele Chatbot-generierte Texte im Internet zu finden sind, dass so eine Art Feedbackschleife entsteht? Weil sich die Modelle auf Daten basieren, die aus Modellen stammen, die auf Daten basieren, die aus Modellen stammen usw. ?

Das ist tatsächlich ein Problem und dafür mit dafür verantwortlich, dass es bei vielen Modellen letztes Jahr eine deutliche Degeneration der Qualität gab. Mittlerweile versucht man neue Modelle anders zu trainieren (nämlich auf künstlichen, aber plausiblen Daten, die existierende LLMs generieren), aber löst das Problem natürlich nicht vollständig. Wir haben natürlich auch feste Trainingsdatensätze, bei denen man durch viel Kuratierung versucht, die Qualität hoch zu halten. Diese allein sind aber zu klein um LLMs den Leistungsumfang zu verpassen, den der Markthunger fordert.

Zitat von: Harry am 7.05.2025 | 09:49

Na beispielsweise Firmen, die mir ein Modell verkaufen wollen, das bei Klientengesprächen mithört, mitschreibt und gleich einen Vorschlag für Diagnose, Bericht und Behandlung nach "best practices" macht. Das klingt wie die eierlegende Wollmilchsau und macht mich schlagartig misstrauisch, daher brauche ich unbedingt mehr Verständnis von der Materie - unter anderem, weil Kolleg*innen dieses Versprechen irre attraktiv finden. Ich ja auch, klar, wenn mir der Computer Arbeit abnehmen kann, will ich mich nicht aus Prinzip dagegen wehren. Aber wenn ich nicht zumindest grob verstehe, wie das funktionieren soll, bin ich erst einmal skeptisch.

LLMs können da tatsächlich eine interessante Unterstützung sein, du musst bedenken, speziell darauf trainierte Modelle haben einen gewaltigen Überblick über Fälle und Fachliteratur, den kein anderer Mensch vom Fach allein im Kopf behalten oder auch nur recherchieren könnte. Wichtig ist aber, die gegebenen Antworten nicht für voll zu nehmen. Diagnosen wollen geprüft werden, Berichte gegengelesen und Behandlungsempfehlungen spricht das LLM hoffentlich gar nicht erst aus. Nebenbei gibt es da auch diverse rechtliche Hürden. Der AI Act schreibt zum Beispiel vor, dass die Ergebnisse auf jeden Fall von fachlich versierten Menschen geprüft und freigegeben werden müssen. Und der Datenschutz für Patientendaten ist natürlich ebenso zu beachten - gerade das Mithören und Protokollieren ist damit eigentlich ein absolutes NoGo, insbesondere für Anbieter, die im Hintergrund auf amerikanische Cloudanbieter oder direkt auf OpenAI und co setzen.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: KhornedBeef am 7.05.2025 | 11:25

Wenn man ein Modell lokal laufen hat, kann das sicherlich mitgehörte Unterhaltungen organisieren und zusammenfassen. So eine Art dummer persönlicher Assistent.
Bei allem anderen fehlen entweder Datenschutz oder Leistung, soweit ich weiß.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 7.05.2025 | 11:55

Wieviel Rechenleistung braucht man denn eigentlich für eine LLM-Antwort bei einer mittel-komplexen Frage? Wird man da mit einer lokalen Installation überhaupt glücklich? Und wieviel Festplatte braucht man?

Immerhin: weil neulich mal so durchs Inet schwappte, wieviel Energie LLMs weltweit fressen und was für ein Wasserverbrauch und dass das ja unverantwortlich wäre blablub, habe ich ChatGPT mal gefragt, wieviel Energie unsere Unterhaltungen denn auf seiner Seite so verbrauchen. Er hat dann ausgerechnet, bis zu diesem Zeitpunkt in soundsoviel Interaktionen soundsoviel Wh. Das war iirc so viel, wie ein einziges Solarmodul in 10 Minuten Peak erzeugt. Seitdem verschwende ich da keinen Gedanken mehr dran.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Raven Nash am 7.05.2025 | 12:05

Zitat von: Feuersänger am 7.05.2025 | 11:55

Wieviel Rechenleistung braucht man denn eigentlich für eine LLM-Antwort bei einer mittel-komplexen Frage? Wird man da mit einer lokalen Installation überhaupt glücklich? Und wieviel Festplatte braucht man?

Festplatte wenig, Grafikprozessor vieeeel. Meine Frau macht grade ihren Master in LLM-Zeugs und wird ab Sommer in dem Bereich arbeiten.
Die arbeiten im Studium alle auf externen (Google) Servern - selbst mit kleinen Modellen reicht da auch der High-End Gaming-PC nicht aus.

Der Energieverbrauch findet aber hauptsächlich mit Training der Modelle statt. Das sind gigantische Datensätze, die da verarbeitet werden müssen. Ich hab mitbekommen, wie die für ihre Projekte im Studium ständig Datensätze reduzieren mussten, damit das sogar für die kleinen Projekte machbar war.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 7.05.2025 | 12:12

Festplatte wenig? Das wundert mich jetzt. Ich dachte, wenn wir von 2-3stelligen "B"s sprechen, müssen diese auch lokal abrufbar sein.

Noch was zu "Thinking Models": das check ich auch nicht so ganz. Manchmal kommen die Antworten des LLM wie aus der Pistole geschossen und sind dabei oft sehr präzise. Sehr oft aber fängt es erst an mit einer lobenden Bestätigung wie "Sehr guter Punkt", oder wie jetzt gerade im anderen Fenster "Ja, das ist ein echter Zielkon"

und dann passiert minutenlang nichts, ehe sich dann die restliche Antwort aufbaut.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Shihan am 7.05.2025 | 12:17

Zitat von: Feuersänger am 7.05.2025 | 12:12

Festplatte wenig? Das wundert mich jetzt. Ich dachte, wenn wir von 2-3stelligen "B"s sprechen, müssen diese auch lokal abrufbar sein.

Kenne jetzt nur Zahlen aus der Welt der Stable Diffusion. Da haben solche Modelle mit allen Beidaten nur ein paar zehn GB, alles unter 100GB.
Das ist in heutiger Zeit ja eher überschaubar viel.

Vermutlich sind die Modelle für LLMs nur unwesentlich größer, wenn überhaupt.

Die Parameter (die "xyzB"s) werden ja meistens quantisiert gespeichert, als Q8 oder Q4 oder ähnliches. Da hat man pro Parameter max. 1 Byte, eher weniger. Deshalb bleiben die Modelle überschaubar groß.
Die Trainingsdaten hingegen... die sind gigantisch.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Raven Nash am 7.05.2025 | 12:22

Zitat von: Feuersänger am 7.05.2025 | 12:12

Festplatte wenig? Das wundert mich jetzt. Ich dachte, wenn wir von 2-3stelligen "B"s sprechen, müssen diese auch lokal abrufbar sein.

Ich hab Fooocus lokal installiert. Das ist HD-mäßig Pipifax.

Und bei den LLMs sind das einfach Textdateien und Python-Files.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 7.05.2025 | 12:31

Zitat von: Feuersänger am 7.05.2025 | 11:55

Wieviel Rechenleistung braucht man denn eigentlich für eine LLM-Antwort bei einer mittel-komplexen Frage? Wird man da mit einer lokalen Installation überhaupt glücklich? Und wieviel Festplatte braucht man?

Du kannst hochoptimierte Modelle wie Mistral-Small, Llama 3.x oder Qwen2 ganz gut lokal laufen lassen, wenn du entsprechende Grafikpower hast. GPU mit 16GB RAM sollte es dann aber schon sein (eher 24 oder gar 32, wenn du mit größeren Kontextfenstern arbeiten willst), wenn du nicht ewig auf deine Antworten warten willst. Die Modelle sind dann natürlich im Vergleich zu einem großen LLM wirklich eingedampft. Einmal in der Zahl der Parameter, die lokalen Modelle sind ein- bis zwei Größenordnungen kleiner. Aber auch in der Quantisierung, d.h. wie genau die Gewichte/Parameter berechnet werden. Während die großen Modelle da auf 16bit Gleitkommezahlen setzen, müssen lokal meist zwischen 1 und 4bit pro Gewicht reichen. Die Folge davon ist, dass die Modelle öfter mal "falsch" abbiegen und du bei nicht zufrieden stellenden Ergebnissen landest.

Für viele einfache Anwendungsfälle sind die lokalen Modelle aber mehr als gut genug. Wenn du sehr spezifische Sachen machen willst, kannst du die Modelle lokal natürlich auch noch nachtrainieren - dann werden die Ergebnisse dramatisch besser. Man darf halt nur nicht mit der Erwartungshaltung dran gehen, hier etwas zu bekommen, was mit Claude oder ChatGPT mithalten kann.

Festplattenverbrauch ist je nach Modell 2-10 GB.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 7.05.2025 | 15:00

Absolut gesehen, verbrauchen LLMs viel Strom, aber wenn wir uns das leisten wollen, können wir das, weil es relativ gesehen immer noch wenig ist.

Lt. einer Studie liegen wir aktuell bei ~400 TWh pro Jahr für alle Rechenzentren, weltweit. Wie viel davon für KIs, insbesondere LLMs verbraucht ist, ist unklar, aber wenn wir mal von 5% ausgehen, wären das etwa 20TWh.

20 TWh schaffen allein die Windkraftwerke in Schleswig-Holstein und dabei sind noch nicht die mehreren TWh Verlust inbegriffen, weil niemand den Strom haben will und daher die Anlagen abgeschaltet werden müssen.

Der Straßenverkehr in Deutschland verschlingt das Äquivalent von ca. 600 TWh pro Jahr (Stand 2022), pro Tag also 1,6 TWh. Also 2 Wochen kein Auto fahren (inklusive Güterverkehr) und wir könnten als Deutsche weltweit die Nutzung von LLMs sponsoren.

Ach ja, Crypto-Bros sind Energieverschwender sondergleichen. Allein Bitcoins benötigen 100-150 TWh pro Jahr, und da ist dann auch egal, ob das grüne Energie ist oder nicht, denn statt mit der Ahnungslosigkeit der Masse zu spekulieren und dauf deren Kosten den eigenen Reichtum zu maximieren, könnte man den Strom auch sinnvolleren Projekten zu führen. Die wiederum sagen, hey, schaut auf die Gold-Industrie. Für die Goldgewinnung werden das Äquivalent von über 200 TWh ausgegeben.

---

Was den Betrieb zuhause angeht: Die "echten" Modelle kannst du eigentlich gar nicht betreiben. Meist werden diese erst einmal komprimiert, indem ausgenutzt wird, dass wir eine Zahl zwischen 0 und 1 mit weniger Zwischenschritten abbilden, üblicherweise nur 16. Das reduziert den Speicherbedarf auf 1/4 und ein 30B-Modell ist "nur" noch 15 GB groß. Für moderne Speichermedien ist das gar kein Problem. Du musst aber das Modell zwingend in den Hauptspeicher bekommen und willst dabei idealerweise eine GPU bzw. NPU und keine CPU darauf rumrechnen lassen. Will sagen, das muss in den Speicher deiner Grafikkarte passen. Oder du hast einen Apple Silicon Mac oder so eine fancy AMD CPU/GPU Kombination, die sogenanntes universelles RAM hat, das dynamisch zwischen CPU und GPU aufgeteilt werden kann. Nicht so schnell wie dediziertes GPU-RAM, aber du hast davon wahrscheinlich mehr. Denn es reicht nicht, dass das Modell selbst in den Speicher passt, sondern das Kontextfenster muss auch noch rein und da weiß ich aus dem Stegreif nicht die Formel.

Ich kann nur sagen, dass ich mit einem 32 GB MacBookPro, wo dann vielleicht 10 GB oder so für Betriebssystem und Programme, die ich minimal brauche weg sind, ein 30B Modell gerade laden und mit zu kleinem Kontextfenster laufen lassen kann. Ich schaffe dabei 10 token/s. Ein 8K Kontextfenster zu füllen, dauert damit 13
Minuten. Man will was anderes machen, während man auf die Antwort wartet.

Kauf man sich den schnellsten und größten Mac mit 128 GB RAM und 80 GPUs oder so, kann man auch 100 token/s erreichen oder eben deutlich größere 70B Modelle ohne Quantisierung laden und immer noch okayish ausführen. Ihr müsst entscheiden, ob die dafür notwendigen 10.000 € dann noch als hausgebrauch zählen.

Windows-Jünger könnten sich eine oder besser 7 Grafikkarten für je 7000 € kaufen und haben dann ähnliche Ergebnisse. Konsumer-Grafikkarten haben leider relativ wenig RAM, sodass man mit kleinen quantisierten LLMs vorlieb nehmen muss.

Nvidia will diesen Monat noch einen KI-Rechner vorstellen, der ab 3000 € kostet, aber das gilt auch für das Mac Studio, es bleibt also abzuwarten, was dort ein 128 GB Modell kosten wird und wie viele GPU-Kerne es haben wird. Framework hat vor einigen Monaten ebenfalls eine interessanten Rechner mit "Ryzen™ AI Max" SoC vorgestellt, der mit 128 GB RAM (und 16 CPUs/40 GPUs) unter 2500€ kosten soll. Soll im Herbst ausgeliefert werden.

Wer nicht aus bestimmten Gründen sein Modell lokal betreiben will, muss schon etwas tiefer in die Tasche greifen und könnte für das Geld auch relativ lange ein Abo für ein großes Modell abschließen. Für 2500€ kann ich 8 Jahre lang Claude Pro nutzen.

PS: Während ich das hier geschrieben habe, habe ich GPT mit einem Deep Research beauftragt: Das veraltete GPT-4 hat 0,05 TWh im Training verschlungen, hat für 300 Mio User ca. 1 Mrd Anfragen täglich verarbeitet und dabei 0,11 TWh auf Jahr gerechnet verbraucht. Aktuell schätzt man 10% der Rechenzentrumsleistung für KI.

Ca. 40-50% des Stroms ist erneuerbar (je nachdem wo man Kernkraft zuordnet). Die USA sind dabei Umweltsünder mit nur wenigen % erneuerbarer Energie, allerdings kaufen die US-Unternehmen alle Ablassbriefe (PPAs).

PPS: Zum Wasserverbrauch: Da in die USA die Großrechenzentren in Wüstenregionen stehen (billiges Land, billiger Solarstrom, wenig Leute, die Ärger machen könnten) brauchen sie relativ viel Kühlwasser. Das GPT-3 (nicht 4) Training hat 700.000 L Kühlwasser benötigt und man schätzt, das 100 Prompts jeweils 1 L kosten. In Europa wird kaum wassergekühlt, weil das Klima gemäßigter ist und/oder die Rechenzentren dort stehen, wo es billige Wasserkraft gibt. In China, schätzt man, wäre der Wasserbedarf 3x so groß wie in den USA.

Und man kann natürlich auch Elon Musk heißen und auf die Umwelt scheißen und sein Rechenzentrum mit illegalen Dieselaggregaten betreiben, weil dort, wo man gerne bauen wollte, nicht genug Strom da ist. Daher auch aus diesem Grund: Finger weg von Grok.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Gunthar am 7.05.2025 | 17:05

Vorhin 2 Bilder in ChatGPT in Auftrag gegeben und es dauert wesentlich länger als bei Bing-Creator ohne Credits, bis die Bilder da sind.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 7.05.2025 | 21:01

Ein kleines Experiment.

Ich zeige meine Prompts. Das Endergebnis ist angefügt.

Erstelle ein kurzes aber vollständiges Rollenspielbuch mit Regeln in der Tradition von PbtA. Setting sind die späten 1970er bzw. frühen 1980er Jahre. Man spielt Gründer:innen im Silicon Valley, allerdings an einem fiktiven Ort mit fiktiven Firmen. Bitte erfinde 7 passende Playbooks. Erfinde Subsysteme, die die wichtigen Aspekte des Settings simulieren und einen spannenden Grund bilden, dass ganze überhaupt spielen zu wollen. Erfinde schließlich als Teil des Buchs auch Tabellen für Zufallsereignisse, Gegner und Verbündete, und eine Handvoll Abenteuerideen.

Und Gemini 2.5 Pro Preview 06-05 erstellt…

Danke. Sehr gut. Bitte erweitere die Zufallsereignisse-Tabelle auf 36 Einträge für einen W66 Wurf. Außerdem gefällt mir der Titel des Spiels nicht. Benutze keine "Foo & Bar" Form. Mache mir 6 neue Vorschläge für den Titel.

Und Gemini macht.

Mir gefällt "Garage Empire". Das nehmen wir. Bei den Abenteuer-Ideen habe ich allerdings noch keine Vorstellung, wie das im Spiel gehen soll. Bei PtbA gibt es ja Fronten und Clocks, um eine Bedrohung aufzubauen und sie langsam akuter werden zu lassen. So ein Konzept übertragen auf das Setting hätte ich gerne. Bitte erfinde da etwas!

Und Gemini erfindet "Venture Fronts: Der Weg zum Erfolg"

Das ist gut. Fasse bitte alles bisher gesagte zu einem kompletten konsistenten Rollenspielbuch zusammen und formatiere es als DIN A5 Buch mit modernem Layout für Typst.

Typst ist eine moderne Alternative zu TeX und ich war überrascht, dass Gemini das kennt. Leider nicht sonderlich gut und ich hatte zwei Fehler im Quelltext, die ich mit Hilfe der Dokumentation (ich kenne dessen Syntax überhaupt nicht) selbst fixen musste, weil Gemini immer wieder was anderes kaputt gemacht hat.

Außerdem habe ich die von Gemini vorgeschlagene Schrift "Linux Libertine" durch "IBM Plex Mono" ersetzt, weil ich eine Schreibmaschinenschrift passender fand. Und möglicherweise habe ich die Farbe der Überschriften geändert. So wirklich gut ist das Layout leider noch nicht, inbesondere wir schlecht umgebrochen.

Doch egal, ich habe jetzt ein 30 Seiten PDF, wo ich immer noch nicht überzeugt bin, dass man aus "Pirates of the Silicon Valley" ein Rollenspiel machen kann. Das nächste Mal probiere ich dann "Micro Men" :-)

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 8.05.2025 | 02:55

Humor-Versuche von LLMs sind ja meist Glückssache, aber umso mehr schmeiße ich mich weg wenn ein Spruch wirklich mal zündet.

Heute beim Schwadronieren über mein SF-Setting. Kontext: Sprüche von Tiefraumfahrern (Spacer) über Lifterpiloten (die immer nur zwischen Boden und Orbit pendeln).

"Schießen sich aus der Atmosphäre wie Zäpfchen, und tun dann so, als wär's Raumfahrt.“

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Gunthar am 8.05.2025 | 13:34

Gestern mit Claude AI versucht, eine Dungeonmap zu generieren und habe nur ein schematisches Gekritzel erhalten.

Winfuture (https://m.winfuture.de/news/150778) hat einen Artikel über halluzinierendes ChatGPT geschrieben.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Eliane am 8.05.2025 | 15:51

Abo

Und danke für all die Erklärungen.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 8.05.2025 | 16:11

Zitat von: Gunthar am 8.05.2025 | 13:34

Gestern mit Claude AI versucht, eine Dungeonmap zu generieren und habe nur ein schematisches Gekritzel erhalten.

Claude kann ja auch keine Bilder erzeugen.

Das geht aber sehr gut: please invent a dungeon of interconnected rooms for a dungeon crawl and create a short but inspiring description that includes the usual "north is …, south is ...". Then create mermaid diagram to show the topology.

Ich hab's mir dann als HTML-Seite gewünscht. (https://claude.ai/public/artifacts/38a012d2-5b06-4d8e-ac1c-215830b63ea9) (Die Klicks auf das Diagramm funktionieren leider nicht in Claude's Sandbox).

Zum dem Artikel kann ich nur sagen: 1) Nutze ein LLM nicht als Lexikon. 2) Ist doch gut, dass OpenAI so offen mit den Forschungsergebnissen (System Card O3/O4 mini) umgeht. In der System Card von Claude finde ich keine solche Aussagen, ob das nicht untersucht wurde oder nicht gefunden wurde, kann ich nicht sagen. Fakt ist aber, dass OpenAI ja gerade erst 4o komplett vermurkst hatte und eilig zurückrollen musste, die vielleicht nicht unbedingt die besten sind. 3) Momentan versuchen Anbieter, die Fähigkeiten zum logischen Denken und zur Code-Erzeugung zu optimieren und der Rest ist eigentlich gut genug, sodass er unter den Tisch fällt. Wissensfragen beantworten ist aktuell kein spannendes Forschungsziel.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 8.05.2025 | 17:24

Ich habe bei meinem Chatty die "Reasoning-Lampe" inzwischen immer aus. Das hat mE wirklich noch kein Ergebnis verbessert - die Mühle schien mir dann halt in erster Linie eine Websuche durchzuführen und den Mittelwert der Suchergebnisse auszuspucken.

Vorhin habe ich auch mal versucht, ihn aufs Glatteis zu führen, nur um zu sehen ob er offensichtlichen Blödsinn aus Compliance-Gründen bestätigt -- aber er hat es in der Tat als Witz aufgefasst und bei der Antwort auch keinen Zweifel dran gelassen, dass er den gleichen Witz weiterspinnt.
Ansonsten, wenn man ihn mit leicht falschen Zahlen füttert, korrigiert er sie und sagt "Ja das stimmt fast genau", und wenn man größere Abweichungen einfügt liefert er einem eine Ausrede frei Haus wo der Unterschied herkommt ("Du hast offenbar mit einer größeren Fläche gerechnet...").
Umgekehrt läuft es aber genauso, ich muss seine Rechnungen auch überprüfen und finde immer wieder mal Fehler, die dann meistens schon in den Angaben passiert sind -- wenn man zB von 900m Radius spricht und er rechnet dann mit 900m Durchmesser, wie so ein Sechstklässler.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 9.05.2025 | 11:08

Bei meiner gestrigen SF Settingdesign-Session mit ChatGPT auf 4o-mini ist etwas komisches passiert -- allerdings nicht zum ersten Mal. Erstmal ging - in einem frischen Chat - der Austausch sehr gut und fruchtbar voran. Dann stieß ich auf ein Problem, das Chatty zuerst handwedeln wollte, aber ich wollte es genauer wissen. Dann war bei dem Ding irgendwann von jetzt auf gleich komplett die Luft raus. Es sonderte nur noch Schwachsinn ab, etwa "Die Elektrolyse von 6000t Wasser ergibt 3000t Wasserstoff und 3000t Sauerstoff". Da hat es sich dann nach einmaligem Hinweis noch korrigiert, aber die eigentlich gewünschte Rechnung auch nach mehreren Hilfestellungen nicht gepackt (da war ich selber schuld, ich war nur zu faul zum selber rechnen).
Ich habe es dann mit einem anderen Thema probiert - eins das meine mathematischen Kenntnisse übersteigt - und es kam ein offensichtlich falsches Ergebnis. Ich habe es darauf hingewiesen, dass das offensichtlich nicht stimmen kann, es soll nochmal überlegen. "Du hast recht, jetzt hab ichs!" - und exakt denselben Müll nochmal, und dann noch ein drittes mal. Es hatte einen Blackout wie ein Schüler bei einer Schulaufgabe.

Irgendwann bin ich dann entnervt zu Claude gegangen und der hat mir die gewünschte Rechnung auf Anhieb und nachvollziehbar vorgerechnet und (auf Anfrage) noch 6 Alternativen dazu angeboten. Das war ein extrem nützlicher Input (vom System an mich, meine ich). Unerwartet war, dass auf meinen "Daumen hoch" ein Popup kam mit der Nachfrage, was an dieser Antwort gut war. Habe ich aber gerne ausgefüllt. Aber schade, dass man Claude mit dem Free Plan nur in homöopathischen Dosen einsetzen kann.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 12.05.2025 | 23:02

Zitat von: Gunthar am 8.05.2025 | 13:34

Gestern mit Claude AI versucht, eine Dungeonmap zu generieren und habe nur ein schematisches Gekritzel erhalten.

Winfuture (https://m.winfuture.de/news/150778) hat einen Artikel über halluzinierendes ChatGPT geschrieben.

Claude kann keine Bilder. Die schematischen Diagramme die er von Dungeons zeichnet finde ich aber bis so ca. 20 Räume tatsächlich ziemlich brauchbar. Außenareale skizzieren geht auch. Ist halt nicht schön, aber schon praktikabel.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 18.05.2025 | 15:47

Ich habe heute übrigens mal versucht, Hexkarten via KI zu generieren. Also nicht zufälliges Zeug (dass können Gemini und ChatGPT schon ganz gut), sondern solche wo ich gezielt Landmarken und Terrain beschreibend vorgebe. Die Ergebnisse waren, gelinde gesagt durchwachsen.

1. Gemini kann nur Pixelbilder erzeugen, diese enthielten in aller Regel die Landmarken und das Terrain, dass ich haben wollte, aber an den falschen Stellen. Gemini ließ sich zudem nicht dazu überreden, wirklich keine Texte auf der Karte anzubringen (und die waren dann natürlich auch noch falsch). Ganz absurd wird es übrigens, wenn man Flüsse oder Straßen haben möchte die nicht in der Landschaft platziert werden als hätte ein betrunkener Bison als Landschaftspplaner gearbeitet.
2. Claude erkennt, dass man solche Karten recht gut als SVG zeichnen kann und versteht auch sehr gut, wo was platziert werden soll. Das Ergebnis ist nicht hübsch (sieht nach 1980er-D&D-Hexkarte aus oder schlimmer aus), aber inhaltlich schon mal nicht verkehrt. Was ihm aber wirklich Probleme bereitet sind die Abstände der Hexfelder, damit sich ein Wabenraster ergibt. Das hat mich einiges an Nachjustierung gekostet, bist das einigermaßen gepasst hat. Ich vermute, man kann da auch mit importierten Symbolen usw. einiges noch aufhübschen, für einen kurzen Versuch fand ich's aber schon ganz brauchbar. Da SVG am Ende rauskommt, hat man natürlich auch die Möglichkeit manuell problemlos nach daran herum zu basteln.

(https://www.tanelorn.net/index.php?action=dlattach;topic=130453.0;attach=38055)

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Quaint am 18.05.2025 | 16:16

Sehr spannend. Ich will auch lernen, mehr mit LLMs zu machen. Hab da bisher nur paar Mal quasi Ideen geholt für RPG Krams (wobei ich viel quasi händisch rausgeworfen habe), aber da scheint ja noch viel mehr zu gehen.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 18.05.2025 | 17:30

Zitat von: Haukrinn am 18.05.2025 | 15:47

Ich habe heute übrigens mal versucht, Hexkarten via KI zu generieren.

Interessant.

ChatGPT o4-mini hat mir dies beschert (https://chatgpt.com/s/m_6829f36bcd18819189a6e745a525e291).

Prompt: erstelle eine alt aussehende Karte für einen Landstrich für ein Fantasy Rollenspiel und zeichne dort Städte, Flüsse, Straßen, Wälder, Gebirge und Sümpfe ein, wo passend. Füge dann ein 3-Meilen Hex-Raster hinzu.

Finde ich nicht so gelungen.

Ich habe dann Ich möchte, dass du mir eine Hex-Karte für eine Fantasywelt erzeugst. Sie soll 10x10 Felder haben. Erfinde zunächst für jedes Feld eine zufällige Geländeform. Unterscheide zwischen Land und Wasser. Im Wasser kann es inseln geben, im Land kann es seen geben. Das Land kann Wälder, Gebirge oder Sümpfe haben. Gib eine Tabelle mit den 10x10 Geländeformen aus. Kombiniere sie dann zu einer artistischen Karte mit oldschool-style und schematischen Geländemarkern in schwarz-weiß. probiert.

Er hat sich ein Python-Programm geschrieben, um die Geländeformen zu verteilen, dann aber mit diesem Ergebnis (https://chatgpt.com/s/m_6829f57bd5e08191bfb9213381d288f0) komplett versagt. Im zweiten Versuch kam dies (https://chatgpt.com/s/m_6829f65eb2e4819190b269d4a5cfa08a), aber das passt nicht zu den zufällig ermittelten Geländeformen.

Noch ein Versuch: Okay, du schaffst es nicht in einem Schritt, die Tabelle in eine Karte umzuwandeln. Lass uns dies probieren: Erzeuge aus der Tabelle mit etwas Fantasie einen Prompt, der dann eine Landschaft gemäß der Verteilung der Geländeformen beschreibt.

Die Antwort ist:

(Klicke zum Anzeigen/Verstecken)

Das habe ich dann gepromptet… und es kann sich (bis auf den vermaledeiten Gelbstich) echt sehen lassen (https://chatgpt.com/s/m_6829f784cba08191b7b5d194decc0a9c).

Danke. Analysiere nun das Bild, um die Land-Hexfelder zu finden und definiere zu jedem Hexfeld einen zufälligen "Point of interest", einen Ort, Gegenstand oder Person, die eine Möglichkeit zu Interaktion bietet, vielleicht ein Gegner oder ein Verbündeter, etwas, in kurzen Worten beschrieben das mich als SL inspiriert.

(Klicke zum Anzeigen/Verstecken)

Ich befürchte, das passt so gar nicht zur Karte. Die KI scheint sich an der von Python erzeugten Tabelle orientiert zu haben. Da erkenne ich eine Übereinstimmung. Diese sollte ja theoretisch auch Grundlage für den Prompt sein, aber leider hat er nicht das Bild wie gewünscht analysiert.

Ich habe den großen Prompt auch noch mal bei Google probiert. Das Bild hänge ich hier mal an. Leider hat so gut wie keine Hexfelder.

(https://www.tanelorn.net/index.php?action=dlattach;topic=130453.0;attach=38057)

Und trotz fehlender Felder wollte ich auch von Gemini 2.5 Flash (ich hatte vergessen, auf Pro zu wechseln) zufällige POI-Beschreibungen haben.

(Klicke zum Anzeigen/Verstecken)

Ja, auch Gemini schafft es nicht, die Karte zu verstehen… ist aber kreativer.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Paßwächter am 18.05.2025 | 19:57

Eventuell müsste man da mal eine MCP-Kombination (https://modelcontextprotocol.io/introduction) (bzw. auf Deutsch hier (https://blog.logto.io/de/what-is-mcp)) drauf loslassen.
Das Hexraster ist ein anderes "Tool" als eine (Fantasy-)Karte. Wenn man das Hexraster als Datei anbietet (oder jeweils erstellen läßt, zur Not in Python), die Karte mit einem geeigneten Programm (oder einem LLM, das scheint ja schon ganz ordentliche Ergebnisse zu liefern), dann eine Synthese daraus rechnet und anschließend für jedes Hex-Feld Anregungen anfordert, könnte das ein regelrechter Sandbox-Generator werden.
Mir fehlen gerade die Ressourcen dafür :-[...

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 18.05.2025 | 21:10

Ich wurde gestern mal wieder von Katze, ich habe gefurzt^* enttäuscht. Ich habe einen selbstgeschriebenen Prosa-text eingefüttert (In-World Settingbeschreibung), diesen hat es auch korrekt analysiert und gegliedert. Dann habe ich um stilistische Verbesserungsvorschläge gebeten. Es hat dann Sätze moniert die ich überhaupt nicht geschrieben hatte. Also nicht ansatzweise. Seine Kritik war komplett halluziniert. Darauf angesprochen, hat es dann gesagt "Achja sorry stimmt, hast du nicht geschrieben, das habe ich wohl mit einem ähnlichen Text verwechselt." - Weh-Teh-efF?

--

Random: mir fällt auch auf, dass ich selber unterschiedlich formuliere, wenn ich über ein LLM spreche. Insbesondere über CGPT, weil es eben anders als Claude keinen geschlechtlich markierten Namen hat, sage ich mal "er", mal "sie", mal "es". Naja klar, alles valide: der Computer / Roboter, die KI, das LLM. Möglicherweise sage ich aber eher "es", wenn ich mich darüber ärgere, und er oder sie wenn es zu meiner Zufriedenheit arbeitet.

--

*) falls das noch jemand nicht mitbekommen hat: "ChatGPT" auf französisch ausgesprochen: "Chat, j'ai pété" ;D

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 18.05.2025 | 21:57

Zitat von: Feuersänger am 18.05.2025 | 21:10

Ich wurde gestern mal wieder von Katze, ich habe gefurzt^* enttäuscht.

Du schreibst immer mal wieder, das die KI für dich nicht funktionierst, sagst aber nie, welches LLM du benutzt (z.B. Gemini mit "2.5 Pro Preview 06-05" - das ist die LLM-Version). Auch ChatGPT ist nicht ausreichend genau, unterstützt das doch 4o, o3, o3-mini, o4-mini, o4-mini-high, 4.1, 4.1-mini, 4.5, die alle verschiedene Charakteristika haben. Bedenke auch, dass kostenlose und bezahlte Nutzer bei dem selben Modell zum Teil sehr unterschiedliche Ergebnisse bekommen. Manchmal kann das sogar auch einfach an der Tageszeit bzw. der aktuellen Auslastung liegen. Das ist alles leider schwer reproduzierbar.

Mehr Informationen würden helfen, die Situation besser einzuordnen, denn so krasse Halluzinationen habe ich schon seit längerem nicht mehr gesehen.

Für die Qualität der Antwort ist entscheidend, wie lang dein Chat schon ist. Verschiedene LLMs haben verschieden lange Kontextfenster (können sich also an unterschiedlich viel der Konversation erinnern) und haben zusätzlich auch noch unterschiedliche Wahrscheinlichkeiten, sich innerhalb des Fensters auch wirklich zu erinnern. Gemini ist meines Wissens in beiden Kategorien aktuell führend.

Wenn dein Text sagen wir mal 10.000 deutsche Wörter hat, wären das etwa 30k Token und sollte der kostenlose Chat nur 32k haben (habe das nicht recherchiert), beginnt er mit der Ausgabe von Text bereits Teile der Eingabe zu vergessen. Ich würde 100k als unteres Limit für einen vernünftigen Chat sehen, es könnte aber sein, dass die Hersteller da was anderes anbieten.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 18.05.2025 | 22:08

Zitat von: Paßwächter am 18.05.2025 | 19:57

Eventuell müsste man da mal eine MCP-Kombination (https://modelcontextprotocol.io/introduction) (bzw. auf Deutsch hier (https://blog.logto.io/de/what-is-mcp)) drauf loslassen.

MCP ermöglicht viel, kann aber keine Wunder vollbringen und ich sehe nicht, wie es da Problem lösen kann, dass sich der Bildgenerator die Hexes nicht vorstellen kann. ChatGPT kann als Codeinterpreter auf Python zurückgreifen, Claude auf JavaScript (was mir besser gefällt) und damit kann man das Problem lösen, dass das LLM keinen echten Zufall kann. Mit Canvas bzw. Artefakt kann man sich auch ein explizites Programm generieren lassen, dass eine Hexkarte erzeugen und anzeigen kann und theoretisch auch als Bitmap in die Zwischenablage kopieren kann (meines Wissen verhindert dies die Sandbox, in der der Preview läuft). Dann könnte man so eine schematische Karte von der KI anpassen lassen.

MCP könnte man nutzen, um genau diesen Übergang zu automatisieren, müsste dazu aber entweder einen HTTP-basierten MCP in den Browser-Chat-Client integrieren oder die Desktop-App benutzen. Ich bin kein großer ChatGPT User, daher weiß ich nicht, was dessen App kann, aber Claude Desktop kann auch lokale MCPs integrieren, was einfacher wäre.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 19.05.2025 | 00:25

Zitat von: sma am 18.05.2025 | 21:57

Du schreibst immer mal wieder, das die KI für dich nicht funktionierst, sagst aber nie, welches LLM du benutzt (z.B. Gemini mit "2.5 Pro Preview 06-05" - das ist die LLM-Version). Auch ChatGPT ist nicht ausreichend genau, unterstützt das doch 4o, o3, o3-mini, o4-mini, o4-mini-high, 4.1, 4.1-mini, 4.5, die alle verschiedene Charakteristika haben.

Ich lasse bisher das ChatGPT auf "Auto", was in der Regel 4o bedeutet bis das Kontingent für den Zeitslot verbraucht ist, dann steigt es automatisch auf o4-mini um. Ich kann auch außer diesen beiden höchstens noch 4.1-mini auswählen, habe das aber noch nie probiert. Die obigen Hallus kamen alle mit 4o.
Und ja, vermutlich war mein initial reinkopierter Text einfach zu lang - es waren knapp 5000 Worte auf einmal. Ich habe dann angefangen es häppchenweise zu pasten und da kam es dann besser mit zurecht.

Und wohlgemerkt: oft, ich sag mal nicht "meistens", also oft funktioniert 4o für mich durchaus und liefert Antworten, mit denen ich arbeiten kann. Das geht aber freilich nur, solange ich auch selber aufpasse und beim Gegenlesen bemerke, wenn es Mist gebaut hat.

In einem speziellen Fall habe ich auch sowohl Claude als auch CGPT auf das gleiche Problem angesetzt und anfangs irrwitzig weit auseinander liegende Antworten bekommen. Ich habe dann die Eingaben verfeinert und auch das eine Modell mit den Antworten des anderen konfrontiert. Es war ein mehrstufiger Prozess aber am Ende hatte ich ein Ergebnis, mit dem ich zufrieden bin.

Und um auch mal was positives zu 4o zu sagen: einmal habe ich ihm aus Spaß ein Logikrätsel gestellt. Es hat losgelegt, und eine Antwort generiert die genau falsch war, also voll in eine logische Denkfalle reingetappt. Und dann, noch in der gleichen Antwort, dies selber gemerkt und sich korrigiert. "Ach halt, das stimmt ja gar nicht!" und dann weiter räsonniert und kam auf die richtige Lösung. Also ich muss sagen, das wirkte schon geradezu menschlich.

Zitat

Bedenke auch, dass kostenlose und bezahlte Nutzer bei dem selben Modell zum Teil sehr unterschiedliche Ergebnisse bekommen.

Das wusste ich nicht. Eigentlich bescheuert -- wenn sie mich doch dazu bringen wollen, ein Abo abzuschließen, wieso glauben sie da dass es mich überzeugt, wenn sie mir demonstrieren wie ihr Modell versagt?

Zitat

Mehr Informationen würden helfen, die Situation besser einzuordnen, denn so krasse Halluzinationen habe ich schon seit längerem nicht mehr gesehen.

Naja, ich mag jetzt nicht den ganzen Eingangstext hier reinpasten, das würde den Rahmen sprengen. Aber gerne hier einen Auszug aus dem betreffenden Chat. Wohlgemerkt _nachdem_ ich bereits einmal einen Satz reklamiert hatte, den ich angeblich geschrieben hätte obwohl das nicht der Fall war. 4o entschuldigt sich also dafür und fährt dann fort:

ChatGPT said:
[...]
Wenn du möchtest, schaue ich die entsprechende Passage noch einmal konkret an und formuliere, was mir daran auffiel – aber ohne mir Dinge auszudenken, die gar nicht drinstehen. Möchtest du das?

You said:
Ja bitte, zitiere die betreffende Stelle und mache dann Vorschläge

ChatGPT said:
Gerne. Ich beziehe mich auf diesen Abschnitt:

Sie starrte durch die Scheibe auf die schmutzige, grauweiße Landschaft, die sich träge unter ihnen vorbeischob. Das war nicht die Venus, wie man sie von Bildern kannte: leuchtend, brodelnd, golden. Das hier war das echte Gesicht des Planeten. Ein atmungsaktives Miasma aus Schwefelsäure und CO₂, das sich im Licht eines fernen, rötlich gefilterten Sonnenpunkts verlor. Und irgendwo dort draußen befand sich ein havarierter Tanker mit einer Leiche an Bord.

--

Diesen Absatz finde ich eigentlich recht gelungen, aber leider hat er NICHTS damit zu tun was ich eingegeben hatte. In meinem Text kam weder die Venus vor noch ein havarierter Tanker und auch keine Leiche. Mein Text war komplett anders. Es geht um einen Start von der Erde in den Orbit. Die einzige Stelle, die irgendeine entfernte Ähnlichkeit aufweist, lautete:

Die Sterne im Hintergrund bewegten sich gleichmäßig über den Schirm, aber der in der Mitte blieb wo er war. Da schob sich vom unteren Rand etwas anderes in das Panorama – eine Krümmung in blau, weiß und grün. Die Erde. So tief unter ihr – und sie schien unter ihr wegzufallen, wurde kleiner. In letzter Sekunde riß sie sich eine Tüte heran und ließ ihrem Mageninhalt freien Lauf.

Ich erwarte jetzt auch hier keine Lösung oder weitergehende Erklärung über das, was du schon gesagt hast (zu viele Tokens) hinaus. Ich find es aber einfach irre dass das überhaupt passieren kann. Statt dass das System einfach sagt "Hoppla, das war zuviel auf einmal, bitte aufdröseln".

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 19.05.2025 | 13:47

Zitat von: Feuersänger am 19.05.2025 | 00:25

Ich lasse bisher das ChatGPT auf "Auto"

Isch 'abe gar kein Auto.

Da ich meist Dinge frage, die Nachdenken erfordern, bin ich eigentlich immer auf o4-mini-high, außer ich denke, dass o3 oder 4.5 vielleicht besser ist. Aber dann wechsle ich meist eh zu Claude ;-) Als "Plus" User kann ich glaube ich auch nicht das volle Programm ausschöpfen, weil mich OpenAI zu "Pro" upsellen will.

Wenn du über längere Texte sprechen willst, würde ich Gemini 2.5 empfehlen. Die Flash-Version sollten doch auch frei (d.h. zum Preis deiner Daten) verfügbar sein, oder? Ansonsten kann man über <aistudio.google.com> auch direkt auf das LLM zugreifen, ohne einen gezuckerten Chat, der einem mit angepassten Systemprompts gefallen will (obwohl, selbst das rohe Gemini ohne Systemprompt ist neuerdings ein Arschkriecher).

Hier ist ein Beispiel (https://drive.google.com/file/d/1OLyGqxGUWDlsd33_cP_QpGu863mflNBR/view?usp=sharing), wo ich 2.5 Pro Preview 05-06 dazu bringen wollte, mir ein 30-seitiges Quellenbuch zu erzeugen. Mit eine Stunde formatieren, wo Gemini gerade mal 3 Minuten für den Text gebraucht hat, komme ich auf 24 Seiten. Es sind ~6100 Wörter für ~13k Token.

Zitat

...das eine Modell mit den Antworten des anderen konfrontiert.

Ja, das habe ich auch schon erfolgreich versucht.

Zitat

Das wusste ich nicht. Eigentlich bescheuert -- wenn sie mich doch dazu bringen wollen, ein Abo abzuschließen, wieso glauben sie da dass es mich überzeugt, wenn sie mir demonstrieren wie ihr Modell versagt?

Ich glaube, die denken, das funktioniert für die Frust-Schiene. Mal will bezahlen, weil sonst die Ergebnisse so schlecht sind ;-) Ne, keine Ahnung. Dass ein kostenloses Modell nicht so viel kann, wäre ja okay, wenn es denn wenigstens transparent kommuniziert wird. Aber mit diesen du kannst "bis zu 200k Token nutzen" Aussagen, kann man ja gar nichts anfangen. Dass wie wie "bis zu 1 GB/s" bei Glasfaser und es ist trotzdem langsam.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 19.05.2025 | 14:39

Die Interpretation dass die kostenlosen Accounts zum Upgrade auf einen Bezahlaccount einladen sollen, ist übrigens eine Fehleinschätzung. Die kostenlosen Zugänge verfolgen zwei Zwecke:

1. Nutzerzahlen hoch halten. Denn das ist gut fürs Marketing und für Investorenrunden.
2. Daten sammeln. Das machen Bezahlnutzer nämlich nicht mit. Und diese Interaktionsdaten sind halt für die Betreiber immens wertvoll. Und wiegen bei der Kosten/Nutzenabschätzung deutlich schwerer als die Chance, jemanden zum zahlenden Kunden zu machen.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: KhornedBeef am 19.05.2025 | 22:42

In welchem Sinn machen Bezahlkunden das nicht mit?

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Maarzan am 19.05.2025 | 23:04

Zitat von: Haukrinn am 19.05.2025 | 14:39

Die Interpretation dass die kostenlosen Accounts zum Upgrade auf einen Bezahlaccount einladen sollen, ist übrigens eine Fehleinschätzung. Die kostenlosen Zugänge verfolgen zwei Zwecke:

1. Nutzerzahlen hoch halten. Denn das ist gut fürs Marketing und für Investorenrunden.
2. Daten sammeln. Das machen Bezahlnutzer nämlich nicht mit. Und diese Interaktionsdaten sind halt für die Betreiber immens wertvoll. Und wiegen bei der Kosten/Nutzenabschätzung deutlich schwerer als die Chance, jemanden zum zahlenden Kunden zu machen.

Was sammeln die denn da bzw. was können die lernen, wenn hier z.B. jemand eine Hexkarte füllen lässt oder eien Abenteueridee haben will?

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 20.05.2025 | 07:47

Daten wie Hexkarten aussehen. Deine Hexkarten. Was nützlich sein könnte, wenn mal wieder jemand ne Hexkarte anfordert.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Paßwächter am 20.05.2025 | 08:41

Und: in welchem Textumfeld hat der Begriff "Hexkarten"(s)einen Platz? Welche Themen begleiten ihn? Welche Begriffe fallen direkt in der Nähe, welche eher in einigen hundert oder tausend "Token" Entfernung?

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: schneeland am 25.06.2025 | 14:17

Die Diskussion um die Studie, wie sich LLMs auf Textverständnis und Kreativität auswirken habe ich mal in den entsprechenden Thread in Rollenspiel & Gesellschaft verschoben: Link (https://www.tanelorn.net/index.php/topic,124482.msg135289636.html#msg135289636). Bei Bedarf bitte zu diesem Thema dort weiterdiskutieren.

Tanelorn.net

Medien & Phantastik => Multimedia => Multimedia - Software & Betriebsysteme => Thema gestartet von: Feuersänger am 6.05.2025 | 12:58