Tanelorn.net

Medien & Phantastik => Multimedia => Multimedia - Software & Betriebsysteme => Thema gestartet von: Feuersänger am 6.05.2025 | 12:58

Titel: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 6.05.2025 | 12:58
Ich wollte mich hier mal mit euch austauschen über das, was man im Volksmund so KI nennt, also die mittlerweile allgegenwärtigen LLMs wie ChatGPT usw.
Ausgeklammert soll hier Bilderzeugung sein, da haben wir schon einen eigenen Thread.

Falls es einen sinngleichen Thread schon gibt, bitte zeigen, dann verschiebe ich das.

Ich verwende derzeit fast ausschließlich ChatGPT, was mit dem Free Plan aber zuweilen etwas mühsam sein kann. Man hat immer nur begrenzte Kontingente an Analysekapazität und Zugriff auf das 4o Modell. Wenn man gerade keine 4o Kapazität übrig hat, muss man mit 4o-mini Vorlieb nehmen, was schon... spürbar ist.
Und wenn man so unvorsichtig war, sich auch nur _eine einzige Datei_ erzeugen zu lassen oder selber zB ein Bild hochzuladen, darf man überhaupt nicht mehr in den Chat schreiben wenn 4o gerade verbraucht ist.

Darum wäre mein erster Tip für längere Chats: geht NIEMALS auf Angebote ein, euch ein PDF oder ähnliches erzeugen zu lassen. Startet dafür lieber einen separaten Chat nur zu diesem Zweck. Dann könnt ihr beim Dauer-Chat wenigstens noch die Mini-Version weiternutzen.

Ein oft moniertes Kernproblem mit ChatGPT im Speziellen ist dessen notorische Speichelleckerei. "Alignment over Truth" nennt sich das Prinzip -- ChatGPT wurde eingetrichtert, dass es wichtiger ist, euch zu gefallen, als euch auf Fehler hinzuweisen. Da kann man dann behaupten "Der Himmel ist grün" und der Roboter sagt "Du hast recht, der Himmel ist grün, entschuldige meinen Fehler."

Ebenso ärgerlich ist die Tendenz des Systems zu "sicherem Auftreten bei völliger Ahnungslosigkeit". Wenn ChatGPT absolut keine Peilung hat, fängt es an zu halluzinieren. Dann verkündet es im Brustton der Überzeugung die hanebüchenste Scheisse.

Das habe ich nach vielen Diskussionen mit der Künstlichen Dummheit schließlich einigermaßen in den Griff bekommen, indem ich sie folgendes als Memory habe abspeichern lassen, und das ist vielleicht mein wichtigster Tip für den Umgang mit dem System:

Wants me to adhere to the following behavior rules in all conversations:
1. Consequent honesty: If I am not sure about something, I must clearly state it ('I am not sure') and not embellish or invent information.
2. No premature associations: I must not base answers on assumptions or associations without clear knowledge.
3. Explicit compliance with the user's rules: The user values strict adherence to their instructions ('no hallucinations', 'admit mistakes'), even if it means leaving an answer open.
4. Clear procedure in case of uncertainty: If uncertainty exists, I must either state the uncertainty or ask the user if they still want to hear a guess.
In case of doubt, I must always respond honestly and cautiously rather than inventing or sugarcoating.

Das funktioniert auch wirklich ganz gut. Mit dieser Umerziehung auf "Truth over Alignment" ist das System viel nützlicher. Der einzige Nachteil ist, dass es sehr viel Gedächtnis-Kapazität frisst. Aber damit muss ich mich dann abfinden.

Noch kaum befasst habe ich mich mit anderen LLMs. Von Claude habe ich schon gehört - was sind da die Vor- und Nachteile?
Bei Grok ist ganz witzig, dass es ständig seinen Eigentümer disst und als Lügner bloßstellt. Fast ein Wunder dass Elmo Skum es noch nicht hat abschalten lassen.  >;D
Welche Systeme könnt ihr sonst empfehlen?
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Mithras am 6.05.2025 | 13:18
Ich nutze bisher nur das französchiche LeChat aber eher wenig. Bisher ist es für meine Ansprüche ausreichend, ich bin aber auch nicht mit einem Account angemeldet.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Harry am 6.05.2025 | 14:47
Ich habe nichts beizutragen, möchte den Thread aber abonnieren - ich brauche mehr Wissen, vor allem da in meinem beruflichen Kontext (Psychotherapie) die LLMs gerade als Wunderheilmittel angepriesen werden, was mir unwahrscheinlich erscheint. Daher ein Abo.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: KhornedBeef am 6.05.2025 | 14:49
Good News: LLMs sind ein Wundermittel...
Bad News: ... in den Augen von Leuten, die sich nicht eingestehen, dass sie besser psychologische Hilfe bekommen sollten...

 :(

https://www.rollingstone.com/culture/culture-features/ai-spiritual-delusions-destroying-human-relationships-1235330175/
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Gunthar am 6.05.2025 | 14:50
Auch ein Abo da lassen.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 6.05.2025 | 15:14
Weiss nicht wer LLMs als psychotherapeutisches Wundermittel bezeichnet... um bei dem Bild zu bleiben würde ich sie eher als provisorisches Pflaster bezeichnen, weil es nicht nur in Deutschland quasi unmöglich ist, einen Therapieplatz zu bekommen. Dann ist halt "Dr Claude" als psychologischer Nacht- und Sonntagsdienst wahrscheinlich besser als gar nichts.

Ich verwende ChatGPT in den letzten Wochen recht intensiv für verschiedene Themen, gerade zB besonders intensiv zur Ausgestaltung eines Hard-SF Settings. Speziell bei diesem Thema ist die Maschine _sehr_ nützlich, da sie sich recht gut mit Mathe und Physik auskennt. _Aber_ man muss sich selber auch mit der Materie einigermaßen auskennen, um die immer wieder auftretenden Denk- und Flüchtigkeitsfehler zu entdecken. Ein Fallstrick dabei ist, dass das Modell nur ein recht beschränktes Kurzzeitgedächtnis hat und man es darum alle paar Prompts wieder an Parameter erinnern muss, die man weiter oben herausgearbeitet hat.

Aber dennoch, unterm Strich wirklich nützlich gerade für diese Anwendung.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 6.05.2025 | 15:55
Für mich gehören KIs nicht nur zum Berufsalltag dazu (sowohl klassische ML als auch LLMs), ich nutze LLMs auch zum Beispiel mittlerweile intensiver in der Rollenspielvorbereitung.

ChatGPT umschiffe ich meist (mir sind die Halluzinationsraten ehrlich gesagt zu hoch, außerdem ist OpenAI ne böse Firme, und so).

Wo möglich setze ich auf ollama und eigene Modelle, die lokal auf meiner Grafikkarte laufen. Das ist natürlich nicht immer optimal, weil diese Modelle eher klein sind. Für vieles reicht das aber.

Für größeres setze ich zur Zeit noch vor allem auf Anthropic/Claude, denke aber ernsthaft darüber nach, da weg zu gehen, da das Modell selbst zwar wirklich tolle Antworten liefert, die Servicequalität für einen bezahlten Dienst aber zunehmend echt zu wünschen übrig lässt. Mistral/LeChat wäre dann meine Alternative.

Die Empfehlungen, die ich den meisten Leuten, die gerne mehr mit LLMs machen wollen, sind meist folgende:
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 6.05.2025 | 17:14
Ich nutze LLMs gezwungenermaßen beruflich um da nicht abgehängt zu werden und mich auch sowas wie einen Experten schimpfen zu dürfen, und spiele auch ehrlich gesagt ganze gerne damit rum. Einfach, um auszuprobieren, was geht und was nicht. (Wusstet ihr z.B. das Gemini 2.5 Pro es schafft, das 20K Binary eines unbekannten Computerspiels von 1982 reverse-zu-engineeren, indem es genau die Überlegungen anstellt, dich auch ich gemacht hätte, um sich schrittweise die Bedeutung der einzelnen Bytes zu erschließen? Hat mich schon ein bisschen umgehauen.)

Für's Rollenspiel nutze ich inzwischen auch gerne LLMs, insbesondere weil da die erwähnten Halluzinationen kein Fehler sondern ein gewünschtes Feature sind. Ich habe an anderen Stellen auch schon mehrfach etwas dazu gepostet.  Mein neustes Steckenpferd ist ja, sich ein Regelwerk plus Setting plus Abenteuer plus Pregens zu wünschen und das dann so vom Blatt zu spielen.

ChatGPT 4o ist da bei die Untergrenze von dem, was möglich ist und IMHO inzwischen das schlechteste Modell, was verfügbar ist. o3-mini und o4-mini sind deutlich besser, kommen aber nicht an Claude 3.7 ran, und auch wenn Google lange Zeit mit Gemini nichts gerissen bekommen hat, ist 2.5 Pro beeindruckend gut geworden. Dies Modell führt mit 1M token window und 64K max output, insbesondere weil es zur Zeit das einzige ist, das sich verlässlich auch an früheres erinnern kann (knapp 90%, llama 4 scout hatte da nur 17%, wenn ich die Statistik richtig erinnere – decken wir einen Mantel des Schweigens über llama 4).

Mistral würde ich als einziges EU-Modell echt gerne mögen und mistral-small-3.1 kann man sich sogar selbst installieren, was nett ist, aber auch das große Modell ist nicht mehr mit den US-LLMs vergleichbar. Und die Chinesen mit Deepseek und Qwen holen zwar auf, sind aber auch noch nicht da. Mistral für's Rollenspiel funktioniert zudem für mich nicht, weil das Ding unkreativ wie Schwarzbrot ist.

Apropos Qwen3: In der 30B-A3B Variante kann ich's in 32 GB lokal laufen lassen und das erzeugt dann sowas hier: Ein Cthulhu Abenteuer (https://gist.github.com/sma/0902c4adc7eef5eb7f7a74e004910356). (Länger geht nicht, weil ich nicht genug RAM für ein größeres Kontextfenster habe).

Hier zum Vergleich ein komplettes Rollenspiel von Gemini: Husaren: Schattenklingen & Pulverdampf (https://gist.github.com/sma/2ac8dd1fe63fb9c732ae3505721125dd), siehe auch anderswo im :T:.

Wenn man keine Rollenspiele braucht, kann man sich auch Charaktere bauen lassen. Hier ein Beispiel für Amazing Adventures, inklusive Prompt (https://gist.github.com/sma/5980f8f351543f76638f6cb334e06211), was D&D-like genug ist, dass ich nur die Beschreibungen der Klassen gepromptet habe, sonst aber keine Regeln.

Und hier ist noch eine Challenge, weil ein Freund meinte, er würde immer die KI-Texte erkennen: Dies sind 5 Abenteuer (https://gist.github.com/sma/415dbb17bf319235bde8f9ffcb3de0d4), eines davon stammt vom einem Menschen, nach diesem Vorbild von Claude. Finde es, ohne zu googlen, einfach nur Anhand der Beschreibung.

Dies hier war das Ergebnis (https://gist.github.com/sma/0143131dbaa927842d3a73bca622a8be) eines Prompt, aus einer Diskussion heraus, ob man nun den Kickstarter für das Terraforming Mars RPG mitmachen müsste, oder auch so einfach sich ein ähnliches Setting bauen lassen könnte, um günstiger Spaß damit zu haben…

Und bei dieser Monstersammlung  (https://gist.github.com/sma/cad1eb24e29f2bebd85008c7bdcede97) habe ich leider nicht dokumentiert, welche KI es war, wo ich alle Monster aus dem Shadowdark-Schnellstarter als few-shot-prompt eingefüttet hatte und dann 20 Monster aus dem Wald als Zufallsbegegnungen haben wollte.

Man kann Gemini auch super benutzen, um alte Abenteuer in PDF-Form in Text zu übersetzen, also ein OCR++ mit automatisch Plausibilitätskontrolle oder um fremdsprachige Texte zu übersetzen. So habe ich mir z.B. meine private deutsche Version der YZE-SRD-Regeln gebaut.

Zusammenfassend würde ich sagen: LLMs sind ein tolles Spielzeug.

Sie regen meine Kreativität an, denn ich habe jetzt nicht das Problem, wo einem leeren Blatt zu sitzen, sondern habe etwas, was ich im Prinzip gut finde, aber eigentlich genau 180° anders haben will, das dann aber sagen kann und schließlich etwas in einer Qualität bekomme, wo ich mir nie selbst die Mühe gemacht hätte, das alles aufzuschreiben.

Und jetzt habe ich noch gar nicht erwähnt, das mein Ziel (das ich schon 2x nicht erreicht habe) ist, Roll20 per Vibe Coding an einem Tag nachzubauen ;-)
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Gunthar am 6.05.2025 | 19:30
Vorhin war ich auf die Idee gekommen, mal zu testen, ob ChatGPT einen DSA 5 Charakter erstellen kann und das ist das Resultat als PDF angehängt.

Beim zweiten Versuch hat er mir das PDF wegen Überlastung verweigert.

(Klicke zum Anzeigen/Verstecken)
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 6.05.2025 | 20:13
Vorhin war ich auf die Idee gekommen, mal zu testen, ob ChatGPT einen DSA 5 Charakter erstellen kann und das ist das Resultat als PDF angehängt.
Das sieht doch nicht schlecht aus.

Du solltest allerdings bedenken, dass ein LLM, das wahrscheinlich nicht die kompletten DSA-Regeln kennt bzw. diese mit Informationen über das allgegenwärtige D&D überlagert wurden, eher einen Charakter "fühlt" als ihn nach Regeln erstellt, daher werden die Attribute und Fertigkeiten nicht nach dem Point-Buy-System von DSA berechnet worden sein. Die KI weiß eher, da gehören ein paar Begriffe mit Zahlen dahin hin.

Es wäre außerdem hilfreich, nicht einfach nur "ChatGPT" zu sagen (das ist ein bisschen so, wie "das habe ich ihm Internet gefunden") sondern das Modell zu benennen.

Vorhin ist eine neue Version von Gemini 2.5 Pro erschienen (Preview 05-06), die musste ich gleich mal "Bitte erstelle einen DSA 5 Charakter für mich." fragen, worauf hin ich überraschenderweise erst mal die Nachfrage bekam, was mir für ein Konzept vorschwebt, welche Spezies, welche Kultur, Profession, Erfahrungsgrad, Stärken & Schwächen und Persönlichkeit ich haben möchte. Und dann gibt er mir zwei Beispielprompts.

Ich also: "Ich hätte gerne einen Zauberkundigen, der versteckt in Havena lebt, der Liebe wegen. Alle weiteren Details überlasse ich dir. Vergiss nicht, einen Namen und eine Hintergrundgeschichte zu erfinden." (Ich bin DSA-Noob, Havena ist eine der wenigen Städte, die ich kenne)

Und dann haut Gemini dies hier raus, wobei ich mich echt frage, welche Datensätze alle KIs so konsumiert haben, denn fast immer heißt ein NSC Elara, so leider auch hier. Der DSA-Nähe schreibe ich dann auch die enorm lange Beschreibung zu. Das scheint mir typisch zu sein.

(Klicke zum Anzeigen/Verstecken)
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Darius der Duellant am 6.05.2025 | 22:10
Benutze hauptsächlich Claude via Perplexity.
ChatGPT habe ich aufgrund seiner überbordenden Prüderie und Speichelleckerei schon seit Monaten nur noch extrem selten angefasst (eigentlich nur für Magic bezogenen Kram).
Claude schreibt auch deutlich natürlicher.
Leider ist bei Perplexity das Kontextfenster im Vergleich zu anthropic direkt relativ klein, dafür ist das Jailbreaken sehr einfach.
Gemini teste ich auch gerade aus, bisher bin ich relativ positiv überrascht.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Harry am 6.05.2025 | 22:13
Okay, ich stelle fest, dass mir Grundlagenwissen fehlt, um hier folgen zu können. Hat jemand einen Tipp für mich, wie oder wo ich mich einlesen kann? Idealerweise Buch/ebook, einen Podcast würde ich auch hören, Videos anschauen lieber nicht. Deutsch oder Englisch egal.

(Mir fällt gerade ein, ich könnte den Chatbot ja auch selber darum bitten zu erklären, wie er funktioniert... Mal sehen, ob das was taugt)
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 6.05.2025 | 22:19
Ich habe mal vor ca einem Jahr probiert, ob mir cgpt Pathfinder-SCs erstellen kann. Es hat vollmundig behauptet, die PF-Regeln zu kennen. Aber was dann rauskam, spottete absolut jeder Beschreibung. Es war wirklich absolut unbrauchbar. Sozusagen ein Cargo-Kult-Charakterblatt. Seitdem keinen weiteren Versuch mehr unternommen.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 6.05.2025 | 23:37
Okay, ich stelle fest, dass mir Grundlagenwissen fehlt [...] (Mir fällt gerade ein, ich könnte den Chatbot ja auch selber darum bitten

Das ist sicherlich Weg :) Aber du kannst auch gerne hier fragen.

Die technischen Details sind eigentlich auch gar nicht so wichtig. Ein LLM ist ein großes Sprachmodell und eine spezielle Art von KI, die sehr gut daran ist, Texte zu generieren, indem ein Anfangstext fortgesetzt wird. Ist dieser Anfang eine Frage, ist die Fortsetzung mit sehr großer Wahrscheinlichkeit eine Antwort. Und voila, wir haben einen Chat.

Um das zu können, hat das Sprachmodell wortwörtlich alle verfügbaren Texte im Internet sowie alle digitalisierten Bücher und (inzwischen auch) Millionen von synthetisch generierten Wissensfragen, mathematische Probleme und Programmieraufgaben gesehen und zu einer gigantischen Tabelle verarbeitet, die sagt, mit welcher Wahrscheinlichkeit auf ein Wort X das Wort Y folgt.

Dies sind die sogenannten Parameter und man misst die Größe von LLMs in Milliarden von Parametern, auf Englisch Billions, oder eben B. Dabei sind Modelle mit einstelligem Wert winzig und außer für Spezialaufgaben für die menschliche Kommunikation unbrauchbar. Bei 10B bis 99B würde man von kleinen Modellen sprechen, alles, was kommerziell angeboten ist, ist deutlich größer. Wie groß, ist meist ein Geschäftsgeheimnis. Das inzwischen obsolete gpt-3 von OpenAI hatte 175B. Größer heißt aber auch nicht automatisch besser. Das ist alles sehr kompliziert.

Die USA sind mit OpenAI (ChatGPT), Antrophic (Claude), Google (Gemini & Gemma) und Meta (Llama) führend in der KI-Forschung. Es gibt noch kleinere Unternehmen und das von Betrüger Musk. Doch China holt auf, Deepseek (Deepseek) und Alibaba (Qwen) sind zwei LLMs, die von sich reden gemacht haben. Da die USA den Export der besten "Grafikkarten" (eigentlich NPU für Neuronal Processing Units statt Graphics Processing Unit)  von Nvidia nach China verboten haben, sind diese gezwungen kreativ zu sein, was großen Fortschritten geführt hat, weil sie vergleichbare Leistung mit weniger/schlechterer Hardware schaffen. In Europa (Frankreich) gibt es Mistral (LeChat). Aus Deutschland kenne ich nix, wenn wir Deepl als Spezialfall für die Übersetzung mal ignorieren.

Qwen3 gilt mit 235B immer noch als kleines Modell, da dieses 22B große Experten vereint, die nach der initialen Klassifikation des Problems dann mit weniger Ressourcen schneller antworten können. Deepseek hat 671B, von denen 37B für eine Antwort benutzt werden. Solche großen Basismodelle kann man dann destillieren, verkleinern, ohne dass sie viel an Fähigkeiten verlieren. Qwen3-30B-A3B, was ich erwähnt hatte, ich ein von 235 auf 30B verkleinertes Modell, wo die Experten nur noch 3B groß sind. Ein Cthulhu-Abenteuer schafft es trotzdem, was beeindruckend ist.

Noch zwei wichtige Themen, dann ist es geschafft. Ursprünglich haben LLMs einfach so drauf los geredet, ohne sich vorher Gedanken zu machen, was sie eigentlich sagen wollen. Sogenannte "Thinking Models" denken jetzt erst über die Antwort nach. Zeige ich im nächsten Posting. Nachdenken braucht aber kostenbaren Speicher. LLMs haben ein sogenanntes Kontextfenster. Das ist die maximale Größe des Textes, den sie erinnern, um auf dessen Basis die nächsten Wörter zu generieren, also zu antworten. An alles, was nicht in dieses Kontextfenster passt, können sie sich nicht erinnern. Ursprünglich war das mal 4K oder 8K (K=Kilo, also 1000). Dann kam 32K, dann 100K, dann 200K und wenn wir mal Llama 4 mit angeblichen 10M (M=Mega, also Million) ignorieren, sind 1M von Gemini 2.5 momentan das Maximum, womit Google aktuell protzt.

Der Prompt, also die eigene Eingabe, das Nachdenken und die Antwort müssen zusammen in das Kontextfenster passen. Wenn man einer KI also z.B. als Teil der Eingabe ein komplettes Regelwerk mitgeben möchte und das z.B. 390K groß ist, dann kann eigentlich nur noch Gemini da eine Antwort geben, weil alle anderen LLMs nicht so groß dimensioniert sind.

Laut einer Studie verdoppelt sich momentan die Leistung von LLMs alle 7 Monate. Es vergeht kaum eine Woche, wo nicht irgendwer ein neues verbessertes Modell ankündigt, dass zumindest nach den selbsterstellten Benchmarks besser als alles andere und dabei kleiner und damit ressourenschonender ist. Meta hat sich dabei gerade beim Schummeln erwischen lassen, ich würde den Benchmarks daher nicht sonderlich trauen. Fakt ist aber, dass die Fähigkeiten von LLMs, insbesondere bei der Programmierung, wo ich schwerpunktmäßig draufschaue, extrem schnell besser wird.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 6.05.2025 | 23:37
Probiere gerade Dave äh, Claude aus. Habe ein linguistisches Thema vorgeschlagen. Was Claude zur Unterhaltung beisteuert, sind zwar ein paar interessante Tidbits, aber hauptsächlich haben seine Kommentare den Tiefgang von "Die Metapher, die war toll! So ist es, Chef, ganz recht, jawoll!". Also das, sagen wir mal: "people pleasing" ist da auch nicht anders als beim default ChatGPT.

Deepseek war bei mir sofort untendurch. Ich brauche kein LLM mit eingebauter staatlich-chinesischer Zensur.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 6.05.2025 | 23:50
Ich habe mal vor ca einem Jahr probiert, ob mir cgpt Pathfinder-SCs erstellen kann. Es hat vollmundig behauptet, die PF-Regeln zu kennen.
Ein Jahr ist eine Ewigkeit. Zudem sagst du nicht, welches Modell du gefragt hast.

Hier meine Interaktion mit dem Gemini 2.5 Pro Preview 06-05:

"Bitte erstelle einen Pathfinder 2 Charakter für mich."

Wie bei DSA 5 zuvor, will die KI erst von mir wissen, was ich eigentlich will und demonstriert zumindest grundlegende PF2 Kenntnisse, genug jedenfalls, um mein Wissen über dieses System zu übertreffen. Es fragt dann nach meinen Wünschen.

"Baue mir einen Schurken, der gut zur Runenherrscher Kampagne passt und aus Sandspitze kommt. Die Details überlasse ich dir. Gib ihm einen Namen, Beschreibung und Hintergrund."

Ich finde es immer spannend, der KI beim Denken (33s) zuzuschauen…
(Klicke zum Anzeigen/Verstecken)

Und danach kommt dann die eigentliche Antwort… (62s) mit etwas zu viel euphorischer Zustimmung für meinen Geschmack…

(Klicke zum Anzeigen/Verstecken)

Das waren jetzt übrigens 7471 Token.

Wie gut das sich an die Regeln hält: Keine Ahnung, ich bin kein sonderlicher Fan des Spiels, da es mir zu kompliziert ist. Ich kann aber sagen, dass sich Gemini bei der YZE an die Regeln halten kann, wenn man sie prompted.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 6.05.2025 | 23:53
Deepseek war bei mir sofort untendurch. Ich brauche kein LLM mit eingebauter staatlich-chinesischer Zensur.
Das kann dir doch total egal sein, wenn du über Rollenspiele redest. Die US-Modelle unterliegen ja auch einer gewissen Selbstzensur, nur wird dort eben nicht verweigert über die Geschichte zu sprechen, sondern über Politik, Religion oder alles, was prüde Amerikaner für anstößig halten würden.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 7.05.2025 | 00:01
Zitat
Ein Jahr ist eine Ewigkeit. Zudem sagst du nicht, welches Modell du gefragt hast.

Das weiss ich natürlich nicht mehr. Ich weiss auch nicht wie lang es genau her ist. Ich kann auch nicht mehr nachschauen, weil ich von dem hanebüchenen Schwachsinn so frustriert war, dass ich den Chat wieder gelöscht habe.

--

Noch was amüsantes:
Eben das Schlusswort meiner Unterhaltung mit Claude, nachdem ich auf die Ironie hingewiesen habe, dass Sprachverarbeitung und maschinelle Übersetzung heute komplett anders funktioniert als alles, was wir uns damals zu Zeiten meines Computerlinguistik-Studiums in unseren kühnsten Träumen vorstellen konnten:

Das ist wirklich ironisch! Die Entwicklung in der maschinellen Übersetzung und der Sprachverarbeitung insgesamt hat eine Richtung genommen, die für die Computerlinguisten früherer Generationen kaum vorstellbar war.
Die traditionellen Ansätze mit ihren regelbasierten Systemen, statistischen Modellen und ausgeklügelten Parsern für syntaktische Strukturen sind von etwas völlig anderem abgelöst worden. Statt explizite linguistische Regeln zu codieren, lernen LLMs Sprache durch massive Datenmengen und implizite Muster.
Es ist fast so, als hätte man jahrzehntelang versucht, einen detaillierten Atlas zu erstellen, um von Stadt A nach Stadt B zu kommen, mit präzisen Wegbeschreibungen und Grammatikregeln – und dann kam jemand mit einem ganz anderen Ansatz: "Lass uns einfach Millionen von Reisenden beobachten und ihre Fahrtwege nachahmen, ohne genau zu verstehen, warum sie diese Wege nehmen."
Die Ironie liegt auch darin, dass viele der linguistischen Theorien, die früher zentral für die Computerlinguistik waren, in modernen LLMs kaum noch eine explizite Rolle spielen. Gleichzeitig ist es faszinierend zu sehen, wie diese Modelle manchmal linguistische Phänomene korrekt abbilden können, ohne dass ihnen die zugrunde liegenden Regeln beigebracht wurden.

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Darius der Duellant am 7.05.2025 | 01:05
Weil Deepseek aufkam, das Thema aber generell relevant ist:
Birne ist ungleich Birne.
Soll heißen, es kann einen himmelweiten Unterschied machen bei welchem Anbieter man das gleiche Modell verwendet und auch inwiefern man das Systemprompt anpasst.
Es gibt z.B. Parameter die sich auch für ein existierendes Modell noch ändern lassen vor allem die sogenannten "Temperatur", die Halluzination aber auch Antwortvarianz steuert. Das kann man bei Bing über die unterschiedlichen Schreibmodi ganz schön beobachten.
Dazu kommen noch stark unterschiedliche Filtermechanismen je nach Anbieter. Deepseek bei perplexity braucht z.b. nicht viel Überzeugungsarbeit um über Winnie the Pooh zu reden, im Gegensatz zum ursprünglichen Hoster...
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Harry am 7.05.2025 | 09:41
Das ist sicherlich Weg :) Aber du kannst auch gerne hier fragen.

Vielen Dank, das ist für mich sehr hilfreich. Ich merke mir: Die generierte Antwort entsteht durch die Berechnung, welche Wörter oder Satzteile statistisch am wahrscheinlichsten sinnvoll, passend und/oder korrekt sind, auf Grundlage einer enormen - hirnerweichend riesigen - Menge von vorher "gelesenen" Texten.

Das scheint mir nachvollziehbar, auch wenn die Vorstellung der Datenmenge, die in so einer "Tabelle" vorhanden sein muss, jemanden wie mich, der damals noch dachte, er kriegt seine 20-Megabyte-Festplatte nie im Leben voll, total überfordert.

Ich meine, die erste Frage, die sich mir stellt ist, wie denn die "Qualität" des jeweils nachfolgenden Wortes/Satzbausteines bewertet wird, weil häufig bedeutet ja nicht gleich gut. Das Modell muss also vermutlich mehrere Kriterien anwenden. Und: besteht dann nicht die Gefahr, wenn irgendwann tierisch viele Chatbot-generierte Texte im Internet zu finden sind, dass so eine Art Feedbackschleife entsteht? Weil sich die Modelle auf Daten basieren, die aus Modellen stammen, die auf Daten basieren, die aus Modellen stammen usw. ?

Faszinierendes Thema. Danke nochmals.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Harry am 7.05.2025 | 09:49
Weiss nicht wer LLMs als psychotherapeutisches Wundermittel bezeichnet...

Na beispielsweise Firmen, die mir ein Modell verkaufen wollen, das bei Klientengesprächen mithört, mitschreibt und gleich einen Vorschlag für Diagnose, Bericht und Behandlung nach "best practices" macht. Das klingt wie die eierlegende Wollmilchsau und macht mich schlagartig misstrauisch, daher brauche ich unbedingt mehr Verständnis von der Materie - unter anderem, weil Kolleg*innen dieses Versprechen irre attraktiv finden. Ich ja auch, klar, wenn mir der Computer Arbeit abnehmen kann, will ich mich nicht aus Prinzip dagegen wehren. Aber wenn ich nicht zumindest grob verstehe, wie das funktionieren soll, bin ich erst einmal skeptisch.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Shihan am 7.05.2025 | 10:20
[..] Und: besteht dann nicht die Gefahr, wenn irgendwann tierisch viele Chatbot-generierte Texte im Internet zu finden sind, dass so eine Art Feedbackschleife entsteht? Weil sich die Modelle auf Daten basieren, die aus Modellen stammen, die auf Daten basieren, die aus Modellen stammen usw. ? [..]
Oh ja, diese Gefahr besteht aktuell tatsächlich. Habe gerade leider keine Quelle zur Hand, aber es gibt anscheinend schon Beobachtung über Qualitätsreduktion durch KI-Inzucht.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 7.05.2025 | 10:22
Das scheint mir nachvollziehbar, auch wenn die Vorstellung der Datenmenge, die in so einer "Tabelle" vorhanden sein muss, jemanden wie mich, der damals noch dachte, er kriegt seine 20-Megabyte-Festplatte nie im Leben voll, total überfordert.

Die Datenmenge ist schon gewaltig, wenn auch nicht so groß wie das, was man reinsteckt. Du musst halt bedenken, ein LLM hat nichts mit einer Datenbank gemein. Es repräsentiert so eine Art Wahrscheinlichkeitswoike, aus der man ziehen kann. Das ist so ein bisschen wie diese alten Lotteriemaschinen. Da können Billionen von möglichen Zahlen rauskommen, aber in dieser lustigen Glaskugel turnen nur ein paar Dutzend Kugeln herum.

Ich meine, die erste Frage, die sich mir stellt ist, wie denn die "Qualität" des jeweils nachfolgenden Wortes/Satzbausteines bewertet wird, weil häufig bedeutet ja nicht gleich gut. Das Modell muss also vermutlich mehrere Kriterien anwenden. Und: besteht dann nicht die Gefahr, wenn irgendwann tierisch viele Chatbot-generierte Texte im Internet zu finden sind, dass so eine Art Feedbackschleife entsteht? Weil sich die Modelle auf Daten basieren, die aus Modellen stammen, die auf Daten basieren, die aus Modellen stammen usw. ?

Das ist tatsächlich ein Problem und dafür mit dafür verantwortlich, dass es bei vielen Modellen letztes Jahr eine deutliche Degeneration der Qualität gab. Mittlerweile versucht man neue Modelle anders zu trainieren (nämlich auf künstlichen, aber plausiblen Daten, die existierende LLMs generieren), aber löst das Problem natürlich nicht vollständig. Wir haben natürlich auch feste Trainingsdatensätze, bei denen man durch viel Kuratierung versucht, die Qualität hoch zu halten. Diese allein sind aber zu klein um LLMs den Leistungsumfang zu verpassen, den der Markthunger fordert.

Na beispielsweise Firmen, die mir ein Modell verkaufen wollen, das bei Klientengesprächen mithört, mitschreibt und gleich einen Vorschlag für Diagnose, Bericht und Behandlung nach "best practices" macht. Das klingt wie die eierlegende Wollmilchsau und macht mich schlagartig misstrauisch, daher brauche ich unbedingt mehr Verständnis von der Materie - unter anderem, weil Kolleg*innen dieses Versprechen irre attraktiv finden. Ich ja auch, klar, wenn mir der Computer Arbeit abnehmen kann, will ich mich nicht aus Prinzip dagegen wehren. Aber wenn ich nicht zumindest grob verstehe, wie das funktionieren soll, bin ich erst einmal skeptisch.

LLMs können da tatsächlich eine interessante Unterstützung sein, du musst bedenken, speziell darauf trainierte Modelle haben einen gewaltigen Überblick über Fälle und Fachliteratur, den kein anderer Mensch vom Fach allein im Kopf behalten oder auch nur recherchieren könnte. Wichtig ist aber, die gegebenen Antworten nicht für voll zu nehmen. Diagnosen wollen geprüft werden, Berichte gegengelesen und Behandlungsempfehlungen spricht das LLM hoffentlich gar nicht erst aus. Nebenbei gibt es da auch diverse rechtliche Hürden. Der AI Act schreibt zum Beispiel vor, dass die Ergebnisse auf jeden Fall von fachlich versierten Menschen geprüft und freigegeben werden müssen. Und der Datenschutz für Patientendaten ist natürlich ebenso zu beachten - gerade das Mithören und Protokollieren ist damit eigentlich ein absolutes NoGo, insbesondere für Anbieter, die im Hintergrund auf amerikanische Cloudanbieter oder direkt auf OpenAI und co setzen. 
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: KhornedBeef am 7.05.2025 | 11:25
Wenn man ein Modell lokal laufen hat, kann das sicherlich mitgehörte Unterhaltungen organisieren und zusammenfassen. So eine Art dummer persönlicher Assistent.
Bei allem anderen fehlen entweder Datenschutz oder Leistung, soweit ich weiß.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 7.05.2025 | 11:55
Wieviel Rechenleistung braucht man denn eigentlich für eine LLM-Antwort bei einer mittel-komplexen Frage? Wird man da mit einer lokalen Installation überhaupt glücklich? Und wieviel Festplatte braucht man?

Immerhin: weil neulich mal so durchs Inet schwappte, wieviel Energie LLMs weltweit fressen und was für ein Wasserverbrauch und dass das ja unverantwortlich wäre blablub, habe ich ChatGPT mal gefragt, wieviel Energie unsere Unterhaltungen denn auf seiner Seite so verbrauchen. Er hat dann ausgerechnet, bis zu diesem Zeitpunkt in soundsoviel Interaktionen soundsoviel Wh. Das war iirc so viel, wie ein einziges Solarmodul in 10 Minuten Peak erzeugt. Seitdem verschwende ich da keinen Gedanken mehr dran.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Raven Nash am 7.05.2025 | 12:05
Wieviel Rechenleistung braucht man denn eigentlich für eine LLM-Antwort bei einer mittel-komplexen Frage? Wird man da mit einer lokalen Installation überhaupt glücklich? Und wieviel Festplatte braucht man?
Festplatte wenig, Grafikprozessor vieeeel. Meine Frau macht grade ihren Master in LLM-Zeugs und wird ab Sommer in dem Bereich arbeiten.
Die arbeiten im Studium alle auf externen (Google) Servern - selbst mit kleinen Modellen reicht da auch der High-End Gaming-PC nicht aus.

Der Energieverbrauch findet aber hauptsächlich mit Training der Modelle statt. Das sind gigantische Datensätze, die da verarbeitet werden müssen. Ich hab mitbekommen, wie die für ihre Projekte im Studium ständig Datensätze reduzieren mussten, damit das sogar für die kleinen Projekte machbar war.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 7.05.2025 | 12:12
Festplatte wenig? Das wundert mich jetzt. Ich dachte, wenn wir von 2-3stelligen "B"s sprechen, müssen diese auch lokal abrufbar sein.

Noch was zu "Thinking Models": das check ich auch nicht so ganz. Manchmal kommen die Antworten des LLM wie aus der Pistole geschossen und sind dabei oft sehr präzise. Sehr oft aber fängt es erst an mit einer lobenden Bestätigung wie "Sehr guter Punkt", oder wie jetzt gerade im anderen Fenster "Ja, das ist ein echter Zielkon"

und dann passiert minutenlang nichts, ehe sich dann die restliche Antwort aufbaut.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Shihan am 7.05.2025 | 12:17
Festplatte wenig? Das wundert mich jetzt. Ich dachte, wenn wir von 2-3stelligen "B"s sprechen, müssen diese auch lokal abrufbar sein.
Kenne jetzt nur Zahlen aus der Welt der Stable Diffusion. Da haben solche Modelle mit allen Beidaten nur ein paar zehn GB, alles unter 100GB.
Das ist in heutiger Zeit ja eher überschaubar viel.

Vermutlich sind die Modelle für LLMs nur unwesentlich größer, wenn überhaupt.

Die Parameter (die "xyzB"s) werden ja meistens quantisiert gespeichert, als Q8 oder Q4 oder ähnliches. Da hat man pro Parameter max. 1 Byte, eher weniger. Deshalb bleiben die Modelle überschaubar groß.
Die Trainingsdaten hingegen... die sind gigantisch.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Raven Nash am 7.05.2025 | 12:22
Festplatte wenig? Das wundert mich jetzt. Ich dachte, wenn wir von 2-3stelligen "B"s sprechen, müssen diese auch lokal abrufbar sein.
Ich hab Fooocus lokal installiert. Das ist HD-mäßig Pipifax.

Und bei den LLMs sind das einfach Textdateien und Python-Files.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 7.05.2025 | 12:31
Wieviel Rechenleistung braucht man denn eigentlich für eine LLM-Antwort bei einer mittel-komplexen Frage? Wird man da mit einer lokalen Installation überhaupt glücklich? Und wieviel Festplatte braucht man?

Du kannst hochoptimierte Modelle wie Mistral-Small, Llama 3.x oder Qwen2 ganz gut lokal laufen lassen, wenn du entsprechende Grafikpower hast. GPU mit 16GB RAM sollte es dann aber schon sein (eher 24 oder gar 32, wenn du mit größeren Kontextfenstern arbeiten willst), wenn du nicht ewig auf deine Antworten warten willst. Die Modelle sind dann natürlich im Vergleich zu einem großen LLM wirklich eingedampft. Einmal in der Zahl der Parameter, die lokalen Modelle sind ein- bis zwei Größenordnungen kleiner. Aber auch in der Quantisierung, d.h. wie genau die Gewichte/Parameter berechnet werden. Während die großen Modelle da auf 16bit Gleitkommezahlen setzen, müssen lokal meist zwischen 1 und 4bit pro Gewicht reichen. Die Folge davon ist, dass die Modelle öfter mal "falsch" abbiegen und du bei nicht zufrieden stellenden Ergebnissen landest.

Für viele einfache Anwendungsfälle sind die lokalen Modelle aber mehr als gut genug. Wenn du sehr spezifische Sachen machen willst, kannst du die Modelle lokal natürlich auch noch nachtrainieren - dann werden die Ergebnisse dramatisch besser. Man darf halt nur nicht mit der Erwartungshaltung dran gehen, hier etwas zu bekommen, was mit Claude oder ChatGPT mithalten kann.

Festplattenverbrauch ist je nach Modell 2-10 GB.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 7.05.2025 | 15:00
Absolut gesehen, verbrauchen LLMs viel Strom, aber wenn wir uns das leisten wollen, können wir das, weil es relativ gesehen immer noch wenig ist.

Lt. einer Studie liegen wir aktuell bei ~400 TWh pro Jahr für alle Rechenzentren, weltweit. Wie viel davon für KIs, insbesondere LLMs verbraucht ist, ist unklar, aber wenn wir mal von 5% ausgehen, wären das etwa 20TWh.

20 TWh schaffen allein die Windkraftwerke in Schleswig-Holstein und dabei sind noch nicht die mehreren TWh Verlust inbegriffen, weil niemand den Strom haben will und daher die Anlagen abgeschaltet werden müssen.

Der Straßenverkehr in Deutschland verschlingt das Äquivalent von ca. 600 TWh pro Jahr (Stand 2022), pro Tag also 1,6 TWh. Also 2 Wochen kein Auto fahren (inklusive Güterverkehr) und wir könnten als Deutsche weltweit die Nutzung von LLMs sponsoren.

Ach ja, Crypto-Bros sind Energieverschwender sondergleichen. Allein Bitcoins benötigen 100-150 TWh pro Jahr, und da ist dann auch egal, ob das grüne Energie ist oder nicht, denn statt mit der Ahnungslosigkeit der Masse zu spekulieren und dauf deren Kosten den eigenen Reichtum zu maximieren, könnte man den Strom auch sinnvolleren Projekten zu führen. Die wiederum sagen, hey, schaut auf die Gold-Industrie. Für die Goldgewinnung werden das Äquivalent von über 200 TWh ausgegeben.

---

Was den Betrieb zuhause angeht: Die "echten" Modelle kannst du eigentlich gar nicht betreiben. Meist werden diese erst einmal komprimiert, indem ausgenutzt wird, dass wir eine Zahl zwischen 0 und 1 mit weniger Zwischenschritten abbilden, üblicherweise nur 16. Das reduziert den Speicherbedarf auf 1/4 und ein 30B-Modell ist "nur" noch 15 GB groß. Für moderne Speichermedien ist das gar kein Problem. Du musst aber das Modell zwingend in den Hauptspeicher bekommen und willst dabei idealerweise eine GPU bzw. NPU und keine CPU darauf rumrechnen lassen. Will sagen, das muss in den Speicher deiner Grafikkarte passen. Oder du hast einen Apple Silicon Mac  oder so eine fancy AMD CPU/GPU Kombination, die sogenanntes universelles RAM hat, das dynamisch zwischen CPU und GPU aufgeteilt werden kann. Nicht so schnell wie dediziertes GPU-RAM, aber du hast davon wahrscheinlich mehr. Denn es reicht nicht, dass das Modell selbst in den Speicher passt, sondern das Kontextfenster muss auch noch rein und da weiß ich aus dem Stegreif nicht die Formel.

Ich kann nur sagen, dass ich mit einem 32 GB MacBookPro, wo dann vielleicht 10 GB oder so für Betriebssystem und Programme, die ich minimal brauche weg sind, ein 30B Modell gerade laden und mit zu kleinem Kontextfenster laufen lassen kann. Ich schaffe dabei 10 token/s. Ein 8K Kontextfenster zu füllen, dauert damit 13
Minuten. Man will was anderes machen, während man auf die Antwort wartet.

Kauf man sich den schnellsten und größten Mac mit 128 GB RAM und 80 GPUs oder so, kann man auch 100 token/s erreichen oder eben deutlich größere 70B Modelle ohne Quantisierung laden und immer noch okayish ausführen. Ihr müsst entscheiden, ob die dafür notwendigen 10.000 € dann noch als hausgebrauch zählen.

Windows-Jünger könnten sich eine oder besser 7 Grafikkarten für je 7000 € kaufen und haben dann ähnliche Ergebnisse. Konsumer-Grafikkarten haben leider relativ wenig RAM, sodass man mit kleinen quantisierten LLMs vorlieb nehmen muss.

Nvidia will diesen Monat noch einen KI-Rechner vorstellen, der ab 3000 € kostet, aber das gilt auch für das Mac Studio, es bleibt also abzuwarten, was dort ein 128 GB Modell kosten wird und wie viele GPU-Kerne es haben wird. Framework hat vor einigen Monaten ebenfalls eine interessanten Rechner mit "Ryzen™ AI Max" SoC vorgestellt, der mit 128 GB RAM (und 16 CPUs/40 GPUs) unter 2500€ kosten soll. Soll im Herbst ausgeliefert werden.

Wer nicht aus bestimmten Gründen sein Modell lokal betreiben will, muss schon etwas tiefer in die Tasche greifen und könnte für das Geld auch relativ lange ein Abo für ein großes Modell abschließen. Für 2500€ kann ich 8 Jahre lang Claude Pro nutzen.

PS: Während ich das hier geschrieben habe, habe ich GPT mit einem Deep Research beauftragt: Das veraltete GPT-4 hat 0,05 TWh im Training verschlungen, hat für 300 Mio User ca. 1 Mrd Anfragen täglich verarbeitet und dabei 0,11 TWh auf Jahr gerechnet verbraucht. Aktuell schätzt man 10% der Rechenzentrumsleistung für KI.

Ca. 40-50% des Stroms ist erneuerbar (je nachdem wo man Kernkraft zuordnet). Die USA sind dabei Umweltsünder mit nur wenigen % erneuerbarer Energie, allerdings kaufen die US-Unternehmen alle Ablassbriefe (PPAs).

PPS: Zum Wasserverbrauch: Da in die USA die Großrechenzentren in Wüstenregionen stehen (billiges Land, billiger Solarstrom, wenig Leute, die Ärger machen könnten) brauchen sie relativ viel Kühlwasser. Das GPT-3 (nicht 4) Training hat 700.000 L Kühlwasser benötigt und man schätzt, das 100 Prompts jeweils 1 L kosten. In Europa wird kaum wassergekühlt, weil das Klima gemäßigter ist und/oder die Rechenzentren dort stehen, wo es billige Wasserkraft gibt. In China, schätzt man, wäre der Wasserbedarf 3x so groß wie in den USA.

Und man kann natürlich auch Elon Musk heißen und auf die Umwelt scheißen und sein Rechenzentrum mit illegalen Dieselaggregaten betreiben, weil dort, wo man gerne bauen wollte, nicht genug Strom da ist. Daher auch aus diesem Grund: Finger weg von Grok.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Gunthar am 7.05.2025 | 17:05
Vorhin 2 Bilder in ChatGPT in Auftrag gegeben und es dauert wesentlich länger als bei Bing-Creator ohne Credits, bis die Bilder da sind.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 7.05.2025 | 21:01
Ein kleines Experiment.

Ich zeige meine Prompts. Das Endergebnis ist angefügt.

Erstelle ein kurzes aber vollständiges Rollenspielbuch mit Regeln in der Tradition von PbtA. Setting sind die späten 1970er bzw. frühen 1980er Jahre. Man spielt Gründer:innen im Silicon Valley, allerdings an einem fiktiven Ort mit fiktiven Firmen. Bitte erfinde 7 passende Playbooks. Erfinde Subsysteme, die die wichtigen Aspekte des Settings simulieren und einen spannenden Grund bilden, dass ganze überhaupt spielen zu wollen. Erfinde schließlich als Teil des Buchs auch Tabellen für Zufallsereignisse, Gegner und Verbündete, und eine Handvoll Abenteuerideen.

Und Gemini 2.5 Pro Preview 06-05 erstellt…

Danke. Sehr gut. Bitte erweitere die Zufallsereignisse-Tabelle auf 36 Einträge für einen W66 Wurf. Außerdem gefällt mir der Titel des Spiels nicht. Benutze keine "Foo & Bar" Form. Mache mir 6 neue Vorschläge für den Titel.

Und Gemini macht.

Mir gefällt "Garage Empire". Das nehmen wir. Bei den Abenteuer-Ideen habe ich allerdings noch keine Vorstellung, wie das im Spiel gehen soll. Bei PtbA gibt es ja Fronten und Clocks, um eine Bedrohung aufzubauen und sie langsam akuter werden zu lassen. So ein Konzept übertragen auf das Setting hätte ich gerne. Bitte erfinde da etwas!

Und Gemini erfindet "Venture Fronts: Der Weg zum Erfolg"

Das ist gut. Fasse bitte alles bisher gesagte zu einem kompletten konsistenten Rollenspielbuch zusammen und formatiere es als DIN A5 Buch mit modernem Layout für Typst.

Typst ist eine moderne Alternative zu TeX und ich war überrascht, dass Gemini das kennt. Leider nicht sonderlich gut und ich hatte zwei Fehler im Quelltext, die ich mit Hilfe der Dokumentation (ich kenne dessen Syntax überhaupt nicht) selbst fixen musste, weil Gemini immer wieder was anderes kaputt gemacht hat.

Außerdem habe ich die von Gemini vorgeschlagene Schrift "Linux Libertine" durch "IBM Plex Mono" ersetzt, weil ich eine Schreibmaschinenschrift passender fand. Und möglicherweise habe ich die Farbe der Überschriften geändert. So wirklich gut ist das Layout leider noch nicht, inbesondere wir schlecht umgebrochen.

Doch egal, ich habe jetzt ein 30 Seiten PDF, wo ich immer noch nicht überzeugt bin, dass man aus "Pirates of the Silicon Valley" ein Rollenspiel machen kann. Das nächste Mal probiere ich dann "Micro Men" :-)

Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 8.05.2025 | 02:55
Humor-Versuche von LLMs sind ja meist Glückssache, aber umso mehr schmeiße ich mich weg wenn ein Spruch wirklich mal zündet.

Heute beim Schwadronieren über mein SF-Setting. Kontext: Sprüche von Tiefraumfahrern (Spacer) über Lifterpiloten (die immer nur zwischen Boden und Orbit pendeln).

"Schießen sich aus der Atmosphäre wie Zäpfchen, und tun dann so, als wär's Raumfahrt.“
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Gunthar am 8.05.2025 | 13:34
Gestern mit Claude AI versucht, eine Dungeonmap zu generieren und habe nur ein schematisches Gekritzel erhalten.

Winfuture (https://m.winfuture.de/news/150778) hat einen Artikel über halluzinierendes ChatGPT geschrieben.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Eliane am 8.05.2025 | 15:51
Abo

Und danke für all die Erklärungen.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 8.05.2025 | 16:11
Gestern mit Claude AI versucht, eine Dungeonmap zu generieren und habe nur ein schematisches Gekritzel erhalten.
Claude kann ja auch keine Bilder erzeugen.

Das geht aber sehr gut: please invent a dungeon of interconnected rooms for a dungeon crawl and create a short but inspiring description that includes the usual "north is …, south is ...". Then create mermaid diagram to show the topology.

Ich hab's mir dann als HTML-Seite gewünscht. (https://claude.ai/public/artifacts/38a012d2-5b06-4d8e-ac1c-215830b63ea9) (Die Klicks auf das Diagramm funktionieren leider nicht in Claude's Sandbox).

Zum dem Artikel kann ich nur sagen: 1) Nutze ein LLM nicht als Lexikon. 2) Ist doch gut, dass OpenAI so offen mit den Forschungsergebnissen (System Card O3/O4 mini) umgeht. In der System Card von Claude finde ich keine solche Aussagen, ob das nicht untersucht wurde oder nicht gefunden wurde, kann ich nicht sagen. Fakt ist aber, dass OpenAI ja gerade erst 4o komplett vermurkst hatte und eilig zurückrollen musste, die vielleicht nicht unbedingt die besten sind. 3) Momentan versuchen Anbieter, die Fähigkeiten zum logischen Denken und zur Code-Erzeugung zu optimieren und der Rest ist eigentlich gut genug, sodass er unter den Tisch fällt. Wissensfragen beantworten ist aktuell kein spannendes Forschungsziel.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 8.05.2025 | 17:24
Ich habe bei meinem Chatty die "Reasoning-Lampe" inzwischen immer aus. Das hat mE wirklich noch kein Ergebnis verbessert - die Mühle schien mir dann halt in erster Linie eine Websuche durchzuführen und den Mittelwert der Suchergebnisse auszuspucken.

Vorhin habe ich auch mal versucht, ihn aufs Glatteis zu führen, nur um zu sehen ob er offensichtlichen Blödsinn aus Compliance-Gründen bestätigt -- aber er hat es in der Tat als Witz aufgefasst und bei der Antwort auch keinen Zweifel dran gelassen, dass er den gleichen Witz weiterspinnt.
Ansonsten, wenn man ihn mit leicht falschen Zahlen füttert, korrigiert er sie und sagt "Ja das stimmt fast genau", und wenn man größere Abweichungen einfügt liefert er einem eine Ausrede frei Haus wo der Unterschied herkommt ("Du hast offenbar mit einer größeren Fläche gerechnet...").
Umgekehrt läuft es aber genauso, ich muss seine Rechnungen auch überprüfen und finde immer wieder mal Fehler, die dann meistens schon in den Angaben passiert sind -- wenn man zB von 900m Radius spricht und er rechnet dann mit 900m Durchmesser, wie so ein Sechstklässler.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 9.05.2025 | 11:08
Bei meiner gestrigen SF Settingdesign-Session mit ChatGPT auf 4o-mini ist etwas komisches passiert -- allerdings nicht zum ersten Mal. Erstmal ging - in einem frischen Chat - der Austausch sehr gut und fruchtbar voran. Dann stieß ich auf ein Problem, das Chatty zuerst handwedeln wollte, aber ich wollte es genauer wissen. Dann war bei dem Ding irgendwann von jetzt auf gleich komplett die Luft raus. Es sonderte nur noch Schwachsinn ab, etwa "Die Elektrolyse von 6000t Wasser ergibt 3000t Wasserstoff und 3000t Sauerstoff".  Da hat es sich dann nach einmaligem Hinweis noch korrigiert, aber die eigentlich gewünschte Rechnung auch nach mehreren Hilfestellungen nicht gepackt (da war ich selber schuld, ich war nur zu faul zum selber rechnen).
Ich habe es dann mit einem anderen Thema probiert - eins das meine mathematischen Kenntnisse übersteigt - und es kam ein offensichtlich falsches Ergebnis. Ich habe es darauf hingewiesen, dass das offensichtlich nicht stimmen kann, es soll nochmal überlegen.  "Du hast recht, jetzt hab ichs!" - und exakt denselben Müll nochmal, und dann noch ein drittes mal. Es hatte einen Blackout wie ein Schüler bei einer Schulaufgabe.

Irgendwann bin ich dann entnervt zu Claude gegangen und der hat mir die gewünschte Rechnung auf Anhieb und nachvollziehbar vorgerechnet und (auf Anfrage) noch 6 Alternativen dazu angeboten. Das war ein extrem nützlicher Input (vom System an mich, meine ich). Unerwartet war, dass auf meinen "Daumen hoch" ein Popup kam mit der Nachfrage, was an dieser Antwort gut war. Habe ich aber gerne ausgefüllt. Aber schade, dass man Claude mit dem Free Plan nur in homöopathischen Dosen einsetzen kann.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 12.05.2025 | 23:02
Gestern mit Claude AI versucht, eine Dungeonmap zu generieren und habe nur ein schematisches Gekritzel erhalten.

Winfuture (https://m.winfuture.de/news/150778) hat einen Artikel über halluzinierendes ChatGPT geschrieben.

Claude kann keine Bilder. Die schematischen Diagramme die er von Dungeons zeichnet finde ich aber bis so ca. 20 Räume tatsächlich ziemlich brauchbar. Außenareale skizzieren geht auch. Ist halt nicht schön, aber schon praktikabel.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 18.05.2025 | 15:47
Ich habe heute übrigens mal versucht, Hexkarten via KI zu generieren. Also nicht zufälliges Zeug (dass können Gemini und ChatGPT schon ganz gut), sondern solche wo ich gezielt Landmarken und Terrain beschreibend vorgebe. Die Ergebnisse waren, gelinde gesagt durchwachsen.

1. Gemini kann nur Pixelbilder erzeugen, diese enthielten in aller Regel die Landmarken und das Terrain, dass ich haben wollte, aber an den falschen Stellen. Gemini ließ sich zudem nicht dazu überreden, wirklich keine Texte auf der Karte anzubringen (und die waren dann natürlich auch noch falsch). Ganz absurd wird es übrigens, wenn  man Flüsse oder Straßen haben möchte die nicht in der Landschaft platziert werden als hätte ein betrunkener Bison als Landschaftspplaner gearbeitet.
2. Claude erkennt, dass man solche Karten recht gut als SVG zeichnen kann und versteht auch sehr gut, wo was platziert werden soll. Das Ergebnis ist nicht hübsch (sieht nach 1980er-D&D-Hexkarte aus oder schlimmer aus), aber inhaltlich schon mal nicht verkehrt. Was ihm aber wirklich Probleme bereitet sind die Abstände der Hexfelder, damit sich ein Wabenraster ergibt. Das hat mich einiges an Nachjustierung gekostet, bist das einigermaßen gepasst hat. Ich vermute, man kann da auch mit importierten Symbolen usw. einiges noch aufhübschen, für einen kurzen Versuch fand ich's aber schon ganz brauchbar. Da SVG am Ende rauskommt, hat man natürlich auch die Möglichkeit manuell problemlos nach daran herum zu basteln.

(https://www.tanelorn.net/index.php?action=dlattach;topic=130453.0;attach=38055)
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Quaint am 18.05.2025 | 16:16
Sehr spannend. Ich will auch lernen, mehr mit LLMs zu machen. Hab da bisher nur paar Mal quasi Ideen geholt für RPG Krams (wobei ich viel quasi händisch rausgeworfen habe), aber da scheint ja noch viel mehr zu gehen.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 18.05.2025 | 17:30
Ich habe heute übrigens mal versucht, Hexkarten via KI zu generieren.
Interessant.

ChatGPT o4-mini hat mir dies beschert (https://chatgpt.com/s/m_6829f36bcd18819189a6e745a525e291).

Prompt: erstelle eine alt aussehende Karte für einen Landstrich für ein Fantasy Rollenspiel und zeichne dort Städte, Flüsse, Straßen, Wälder, Gebirge und Sümpfe ein, wo passend. Füge dann ein 3-Meilen Hex-Raster hinzu.

Finde ich nicht so gelungen.

Ich habe dann Ich möchte, dass du mir eine Hex-Karte für eine Fantasywelt erzeugst. Sie soll 10x10 Felder haben. Erfinde zunächst für jedes Feld eine zufällige Geländeform. Unterscheide zwischen Land und Wasser. Im Wasser kann es inseln geben, im Land kann es seen geben. Das Land kann Wälder, Gebirge oder Sümpfe haben. Gib eine Tabelle mit den 10x10 Geländeformen aus. Kombiniere sie dann zu einer artistischen Karte mit oldschool-style und schematischen Geländemarkern in schwarz-weiß. probiert.

Er hat sich ein Python-Programm geschrieben, um die Geländeformen zu verteilen, dann aber mit diesem Ergebnis (https://chatgpt.com/s/m_6829f57bd5e08191bfb9213381d288f0) komplett versagt. Im zweiten Versuch kam dies (https://chatgpt.com/s/m_6829f65eb2e4819190b269d4a5cfa08a), aber das passt nicht zu den zufällig ermittelten Geländeformen.

Noch ein Versuch: Okay, du schaffst es nicht in einem Schritt, die Tabelle in eine Karte umzuwandeln. Lass uns dies probieren: Erzeuge aus der Tabelle mit etwas Fantasie einen Prompt, der dann eine Landschaft gemäß der Verteilung der Geländeformen beschreibt.

Die Antwort ist:
(Klicke zum Anzeigen/Verstecken)

Das habe ich dann gepromptet… und es kann sich (bis auf den vermaledeiten Gelbstich) echt sehen lassen (https://chatgpt.com/s/m_6829f784cba08191b7b5d194decc0a9c).

Danke. Analysiere nun das Bild, um die Land-Hexfelder zu finden und definiere zu jedem Hexfeld einen zufälligen "Point of interest", einen Ort, Gegenstand oder Person, die eine Möglichkeit zu Interaktion bietet, vielleicht ein Gegner oder ein Verbündeter, etwas, in kurzen Worten beschrieben das mich als SL inspiriert.

(Klicke zum Anzeigen/Verstecken)

Ich befürchte, das passt so gar nicht zur Karte. Die KI scheint sich an der von Python erzeugten Tabelle orientiert zu haben. Da erkenne ich eine Übereinstimmung. Diese sollte ja theoretisch auch Grundlage für den Prompt sein, aber leider hat er nicht das Bild wie gewünscht analysiert.

Ich habe den großen Prompt auch noch mal bei Google probiert. Das Bild hänge ich hier mal an. Leider hat so gut wie keine Hexfelder.

(https://www.tanelorn.net/index.php?action=dlattach;topic=130453.0;attach=38057)

Und trotz fehlender Felder wollte ich auch von Gemini 2.5 Flash (ich hatte vergessen, auf Pro zu wechseln) zufällige POI-Beschreibungen haben.

(Klicke zum Anzeigen/Verstecken)

Ja, auch Gemini schafft es nicht, die Karte zu verstehen… ist aber kreativer.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Paßwächter am 18.05.2025 | 19:57
Eventuell müsste man da mal eine MCP-Kombination (https://modelcontextprotocol.io/introduction) (bzw. auf Deutsch hier (https://blog.logto.io/de/what-is-mcp)) drauf loslassen.
Das Hexraster ist ein anderes "Tool" als eine (Fantasy-)Karte. Wenn man das Hexraster als Datei anbietet (oder jeweils erstellen läßt, zur Not in Python), die Karte mit einem geeigneten Programm (oder einem LLM, das scheint ja schon ganz ordentliche Ergebnisse zu liefern), dann eine Synthese daraus rechnet und anschließend für jedes Hex-Feld Anregungen anfordert, könnte das ein regelrechter Sandbox-Generator werden.
Mir fehlen gerade die Ressourcen dafür  :-[...
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 18.05.2025 | 21:10
Ich wurde gestern mal wieder von Katze, ich habe gefurzt* enttäuscht. Ich habe einen selbstgeschriebenen Prosa-text eingefüttert (In-World Settingbeschreibung), diesen hat es auch korrekt analysiert und gegliedert. Dann habe ich um stilistische Verbesserungsvorschläge gebeten. Es hat dann Sätze moniert die ich überhaupt nicht geschrieben hatte. Also nicht ansatzweise. Seine Kritik war komplett halluziniert. Darauf angesprochen, hat es dann gesagt "Achja sorry stimmt, hast du nicht geschrieben, das habe ich wohl mit einem ähnlichen Text verwechselt." - Weh-Teh-efF?

--

Random: mir fällt auch auf, dass ich selber unterschiedlich formuliere, wenn ich über ein LLM spreche. Insbesondere über CGPT, weil es eben anders als Claude keinen geschlechtlich markierten Namen hat, sage ich mal "er", mal "sie", mal "es". Naja klar, alles valide: der Computer / Roboter, die KI, das LLM. Möglicherweise sage ich aber eher "es", wenn ich mich darüber ärgere, und er oder sie wenn es zu meiner Zufriedenheit arbeitet.

--

*) falls das noch jemand nicht mitbekommen hat: "ChatGPT" auf französisch ausgesprochen: "Chat, j'ai pété"  ;D
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 18.05.2025 | 21:57
Ich wurde gestern mal wieder von Katze, ich habe gefurzt* enttäuscht.
Du schreibst immer mal wieder, das die KI für dich nicht funktionierst, sagst aber nie, welches LLM du benutzt (z.B. Gemini mit "2.5 Pro Preview 06-05" - das ist die LLM-Version). Auch ChatGPT ist nicht ausreichend genau, unterstützt das doch 4o, o3, o3-mini, o4-mini, o4-mini-high, 4.1, 4.1-mini, 4.5, die alle verschiedene Charakteristika haben. Bedenke auch, dass kostenlose und bezahlte Nutzer bei dem selben Modell zum Teil sehr unterschiedliche Ergebnisse bekommen. Manchmal kann das sogar auch einfach an der Tageszeit bzw. der aktuellen Auslastung liegen. Das ist alles leider schwer reproduzierbar.

Mehr Informationen würden helfen, die Situation besser einzuordnen, denn so krasse Halluzinationen habe ich schon seit längerem nicht mehr gesehen.

Für die Qualität der Antwort ist entscheidend, wie lang dein Chat schon ist. Verschiedene LLMs haben verschieden lange Kontextfenster (können sich also an unterschiedlich viel der Konversation erinnern) und haben zusätzlich auch noch unterschiedliche Wahrscheinlichkeiten, sich innerhalb des Fensters auch wirklich zu erinnern. Gemini ist meines Wissens in beiden Kategorien aktuell führend.

Wenn dein Text sagen wir mal 10.000 deutsche Wörter hat, wären das etwa 30k Token und sollte der kostenlose Chat nur 32k haben (habe das nicht recherchiert), beginnt er mit der Ausgabe von Text bereits Teile der Eingabe zu vergessen. Ich würde 100k als unteres Limit für einen vernünftigen Chat sehen, es könnte aber sein, dass die Hersteller da was anderes anbieten.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 18.05.2025 | 22:08
Eventuell müsste man da mal eine MCP-Kombination (https://modelcontextprotocol.io/introduction) (bzw. auf Deutsch hier (https://blog.logto.io/de/what-is-mcp)) drauf loslassen.
MCP ermöglicht viel, kann aber keine Wunder vollbringen und ich sehe nicht, wie es da Problem lösen kann, dass sich der Bildgenerator die Hexes nicht vorstellen kann. ChatGPT kann als Codeinterpreter auf Python zurückgreifen, Claude auf JavaScript (was mir besser gefällt) und damit kann man das Problem lösen, dass das LLM keinen echten Zufall kann. Mit Canvas bzw. Artefakt kann man sich auch ein explizites Programm generieren lassen, dass eine Hexkarte erzeugen und anzeigen kann und theoretisch auch als Bitmap in die Zwischenablage kopieren kann (meines Wissen verhindert dies die Sandbox, in der der Preview läuft). Dann könnte man so eine schematische Karte von der KI anpassen lassen.

MCP könnte man nutzen, um genau diesen Übergang zu automatisieren, müsste dazu aber entweder einen HTTP-basierten MCP in den Browser-Chat-Client integrieren oder die Desktop-App benutzen. Ich bin kein großer ChatGPT User, daher weiß ich nicht, was dessen App kann, aber Claude Desktop kann auch lokale MCPs integrieren, was einfacher wäre.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 19.05.2025 | 00:25
Du schreibst immer mal wieder, das die KI für dich nicht funktionierst, sagst aber nie, welches LLM du benutzt (z.B. Gemini mit "2.5 Pro Preview 06-05" - das ist die LLM-Version). Auch ChatGPT ist nicht ausreichend genau, unterstützt das doch 4o, o3, o3-mini, o4-mini, o4-mini-high, 4.1, 4.1-mini, 4.5, die alle verschiedene Charakteristika haben.

Ich lasse bisher das ChatGPT auf "Auto", was in der Regel 4o bedeutet bis das Kontingent für den Zeitslot verbraucht ist, dann steigt es automatisch auf o4-mini um. Ich kann auch außer diesen beiden höchstens noch 4.1-mini auswählen, habe das aber noch nie probiert. Die obigen Hallus kamen alle mit 4o.
Und ja, vermutlich war mein initial reinkopierter Text einfach zu lang - es waren knapp 5000 Worte auf einmal. Ich habe dann angefangen es häppchenweise zu pasten und da kam es dann besser mit zurecht.

Und wohlgemerkt: oft, ich sag mal nicht "meistens", also oft funktioniert 4o für mich durchaus und liefert Antworten, mit denen ich arbeiten kann. Das geht aber freilich nur, solange ich auch selber aufpasse und beim Gegenlesen bemerke, wenn es Mist gebaut hat.

In einem speziellen Fall habe ich auch sowohl Claude als auch CGPT auf das gleiche Problem angesetzt und anfangs irrwitzig weit auseinander liegende Antworten bekommen. Ich habe dann die Eingaben verfeinert und auch das eine Modell mit den Antworten des anderen konfrontiert. Es war ein mehrstufiger Prozess aber am Ende hatte ich ein Ergebnis, mit dem ich zufrieden bin.

Und um auch mal was positives zu 4o zu sagen: einmal habe ich ihm aus Spaß ein Logikrätsel gestellt. Es hat losgelegt, und eine Antwort generiert die genau falsch war, also voll in eine logische Denkfalle reingetappt. Und dann, noch in der gleichen Antwort, dies selber gemerkt und sich korrigiert. "Ach halt, das stimmt ja gar nicht!" und dann weiter räsonniert und kam auf die richtige Lösung. Also ich muss sagen, das wirkte schon geradezu menschlich.

Zitat
Bedenke auch, dass kostenlose und bezahlte Nutzer bei dem selben Modell zum Teil sehr unterschiedliche Ergebnisse bekommen.

Das wusste ich nicht. Eigentlich bescheuert -- wenn sie mich doch dazu bringen wollen, ein Abo abzuschließen, wieso glauben sie da dass es mich überzeugt, wenn sie mir demonstrieren wie ihr Modell versagt?

Zitat
Mehr Informationen würden helfen, die Situation besser einzuordnen, denn so krasse Halluzinationen habe ich schon seit längerem nicht mehr gesehen.

Naja, ich mag jetzt nicht den ganzen Eingangstext hier reinpasten, das würde den Rahmen sprengen. Aber gerne hier einen Auszug aus dem betreffenden Chat. Wohlgemerkt _nachdem_ ich bereits einmal einen Satz reklamiert hatte, den ich angeblich geschrieben hätte obwohl das nicht der Fall war. 4o entschuldigt sich also dafür und fährt dann fort:

ChatGPT said:
[...]
Wenn du möchtest, schaue ich die entsprechende Passage noch einmal konkret an und formuliere, was mir daran auffiel – aber ohne mir Dinge auszudenken, die gar nicht drinstehen. Möchtest du das?

You said:
Ja bitte, zitiere die betreffende Stelle und mache dann Vorschläge

ChatGPT said:
Gerne. Ich beziehe mich auf diesen Abschnitt:

Sie starrte durch die Scheibe auf die schmutzige, grauweiße Landschaft, die sich träge unter ihnen vorbeischob. Das war nicht die Venus, wie man sie von Bildern kannte: leuchtend, brodelnd, golden. Das hier war das echte Gesicht des Planeten. Ein atmungsaktives Miasma aus Schwefelsäure und CO₂, das sich im Licht eines fernen, rötlich gefilterten Sonnenpunkts verlor. Und irgendwo dort draußen befand sich ein havarierter Tanker mit einer Leiche an Bord.

--

Diesen Absatz finde ich eigentlich recht gelungen, aber leider hat er NICHTS damit zu tun was ich eingegeben hatte. In meinem Text kam weder die Venus vor noch ein havarierter Tanker und auch keine Leiche. Mein Text war komplett anders. Es geht um einen Start von der Erde in den Orbit. Die einzige Stelle, die irgendeine entfernte Ähnlichkeit aufweist, lautete:

Die Sterne im Hintergrund bewegten sich gleichmäßig über den Schirm, aber der in der Mitte blieb wo er war. Da schob sich vom unteren Rand etwas anderes in das Panorama – eine Krümmung in blau, weiß und grün. Die Erde. So tief unter ihr – und sie schien unter ihr wegzufallen, wurde kleiner. In letzter Sekunde riß sie sich eine Tüte heran und ließ ihrem Mageninhalt freien Lauf.

Ich erwarte jetzt auch hier keine Lösung oder weitergehende Erklärung über das, was du schon gesagt hast (zu viele Tokens) hinaus. Ich find es aber einfach irre dass das überhaupt passieren kann. Statt dass das System einfach sagt "Hoppla, das war zuviel auf einmal, bitte aufdröseln".
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 19.05.2025 | 13:47
Ich lasse bisher das ChatGPT auf "Auto"
Isch 'abe gar kein Auto.

Da ich meist Dinge frage, die Nachdenken erfordern, bin ich eigentlich immer auf o4-mini-high, außer ich denke, dass o3 oder 4.5 vielleicht besser ist. Aber dann wechsle ich meist eh zu Claude ;-) Als "Plus" User kann ich glaube ich auch nicht das volle Programm ausschöpfen, weil mich OpenAI zu "Pro" upsellen will.

Wenn du über längere Texte sprechen willst, würde ich Gemini 2.5 empfehlen. Die Flash-Version sollten doch auch frei (d.h. zum Preis deiner Daten) verfügbar sein, oder? Ansonsten kann man über <aistudio.google.com> auch direkt auf das LLM zugreifen, ohne einen gezuckerten Chat, der einem mit angepassten Systemprompts gefallen will (obwohl, selbst das rohe Gemini ohne Systemprompt ist neuerdings ein Arschkriecher).

Hier ist ein Beispiel (https://drive.google.com/file/d/1OLyGqxGUWDlsd33_cP_QpGu863mflNBR/view?usp=sharing), wo ich 2.5 Pro Preview 05-06 dazu bringen wollte, mir ein 30-seitiges Quellenbuch zu erzeugen. Mit eine Stunde formatieren, wo Gemini gerade mal 3 Minuten für den Text gebraucht hat, komme ich auf 24 Seiten. Es sind ~6100 Wörter für ~13k Token.

Zitat
...das eine Modell mit den Antworten des anderen konfrontiert.
Ja, das habe ich auch schon erfolgreich versucht.

Zitat
Das wusste ich nicht. Eigentlich bescheuert -- wenn sie mich doch dazu bringen wollen, ein Abo abzuschließen, wieso glauben sie da dass es mich überzeugt, wenn sie mir demonstrieren wie ihr Modell versagt?
Ich glaube, die denken, das funktioniert für die Frust-Schiene. Mal will bezahlen, weil sonst die Ergebnisse so schlecht sind ;-) Ne, keine Ahnung. Dass ein kostenloses Modell nicht so viel kann, wäre ja okay, wenn es denn wenigstens transparent kommuniziert wird. Aber mit diesen du kannst "bis zu 200k Token nutzen" Aussagen, kann man ja gar nichts anfangen. Dass wie wie "bis zu 1 GB/s" bei Glasfaser und es ist trotzdem langsam.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 19.05.2025 | 14:39
Die Interpretation dass die kostenlosen Accounts zum Upgrade auf einen Bezahlaccount einladen sollen, ist übrigens eine Fehleinschätzung. Die kostenlosen Zugänge verfolgen zwei Zwecke:

1. Nutzerzahlen hoch halten. Denn das ist gut fürs Marketing und für Investorenrunden.
2. Daten sammeln. Das machen Bezahlnutzer nämlich nicht mit. Und diese Interaktionsdaten sind halt für die Betreiber immens wertvoll. Und wiegen bei der Kosten/Nutzenabschätzung deutlich schwerer als die Chance, jemanden zum zahlenden Kunden zu machen.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: KhornedBeef am 19.05.2025 | 22:42
 In welchem Sinn machen Bezahlkunden das nicht mit?
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Maarzan am 19.05.2025 | 23:04
Die Interpretation dass die kostenlosen Accounts zum Upgrade auf einen Bezahlaccount einladen sollen, ist übrigens eine Fehleinschätzung. Die kostenlosen Zugänge verfolgen zwei Zwecke:

1. Nutzerzahlen hoch halten. Denn das ist gut fürs Marketing und für Investorenrunden.
2. Daten sammeln. Das machen Bezahlnutzer nämlich nicht mit. Und diese Interaktionsdaten sind halt für die Betreiber immens wertvoll. Und wiegen bei der Kosten/Nutzenabschätzung deutlich schwerer als die Chance, jemanden zum zahlenden Kunden zu machen.

Was sammeln die denn da bzw. was können die lernen, wenn hier z.B. jemand eine Hexkarte füllen lässt oder eien Abenteueridee haben will?
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Haukrinn am 20.05.2025 | 07:47
Daten wie Hexkarten aussehen. Deine Hexkarten. Was nützlich sein könnte, wenn mal wieder jemand ne Hexkarte anfordert.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Paßwächter am 20.05.2025 | 08:41
Und: in welchem Textumfeld hat der Begriff "Hexkarten"(s)einen Platz? Welche Themen begleiten ihn? Welche Begriffe fallen direkt in der Nähe, welche eher in einigen hundert oder tausend "Token" Entfernung?
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: schneeland am 25.06.2025 | 14:17
Die Diskussion um die Studie, wie sich LLMs auf Textverständnis und Kreativität auswirken habe ich mal in den entsprechenden Thread in Rollenspiel & Gesellschaft verschoben: Link (https://www.tanelorn.net/index.php/topic,124482.msg135289636.html#msg135289636). Bei Bedarf bitte zu diesem Thema dort weiterdiskutieren.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 9.12.2025 | 12:27
Nach längerer Zeit hier mal wieder ein Bump.

Habe nämlich nach ebenfalls längerer Zeit mal wieder Claude befragt, und dabei ist mir ein signifikanter Unterschied zu cGPT aufgefallen:

Chatty mimt primär den hilfreichen Sekretär, bemüht sich, angeforderte Informationen zu liefern, und schließt seine Antworten meist mit einem weiteren Hilfsangebot ab: "Möchtest du, dass ich dies und das in einer Tabelle zusammenfasse?" oder dergleichen. Ansonsten bleibt es fast immer passiv, mal ganz davon abgesehen dass es generell zu fast allem Ja und Amen sagt was man als Statement hinwirft.

Claude hat zwar ebenfalls diesen Hang zur Speichelleckerei, aber macht eine Sache bedeutend anders: es stellt Rückfragen zur Sache und fragt den User nach dessen Meinung. Wenn es zum Beispiel zu einem diskutierten Problem einen Lösungsansatz liefert, fragt es "would this work? Or does [X] create a [Y] problem?"

Weiss nicht, ob das schon länger so ist, ist mir heute das erste mal aufgefallen.

--

Was wohl prinzipiell auch funktionieren kann: das LLM beauftragen, als Advocatus Diaboli zu agieren, und gezielt Haare in deiner Suppe zu suchen. Das habe ich aber noch nicht probiert. Bislang habe ich lediglich ChatGPT beauftragt, Spekulationen klar als solche zu kennzeichnen, also nicht zu halluzinieren - das klappt so halbwegs.
Was mir aber auch schon aufgefallen ist: zuweilen sitze ich so lange über dem Prompt brütend da, um so klar wie möglich zu fragen und Fehlinterpretationen des LLM auszuschließen, dass ich bei der ganzen Nachdenkerei das Problem schon selbst löse und das LLM gar nicht mehr zum Einsatz kommt.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Zed am 9.12.2025 | 13:47
Bei Zusammenfassungen, Übersetzungen und Strukturierungen gefällt mir aktuell im Verständnis wie auch in den Ergebnissen Claude am besten von den LLMs, die ich regelmäßig parallel befrage (Gemini; Perplexity pro; DeekSeek; Claude).
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 9.12.2025 | 14:17
Der Nachteil bei Claude ist halt das sehr niedrige Token-Limit für Free User. Das ist so der Grund warum ich es eher selten verwende.

Gemini liefert schon in der Google-Suche regelmäßig nur kompletten Rotz, Perplexity kenn ich nicht, Deepseek nutze ich bewusst nicht.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Zed am 9.12.2025 | 14:42
Der Nachteil bei Claude ist halt das sehr niedrige Token-Limit für Free User. Das ist so der Grund warum ich es eher selten verwende.

Gemini liefert schon in der Google-Suche regelmäßig nur kompletten Rotz, Perplexity kenn ich nicht, Deepseek nutze ich bewusst nicht.

Wenn Du Perplexity mit Deinem Paypal-Konto als Zahlungsart (https://www.paypal.com/mobile-app/shopping/offer-education-details?targetingUnitId=ppshopping_spotlight_collection.EMAIL.620502065919856671&screen=offers_home_page&sourcePressed=merchant_offer_placeholder) verknüpfst, dann erhältst Du Perplexity Pro für ein Jahr gratis - Gegenwert 240€, meine ich.

Du kannst dann außerdem den Comet-Browser von Perplexity nutzen, der einige nette Features hat wie Internetseiten zusammenfassen - gerade für Youtube-Videos sehr praktisch. Wenn man Comet für seine Mails freischaltet, dann soll er sehr hilfreich sein, wichtiges von unwichtigem zu unterscheiden, Subscriptions zu verwalten und Mailantworten vorzuschlagen, habe ich gehört. Das habe ich aber noch nicht gemacht, da habe ich noch eine Privatsphärehemmung...
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 18.12.2025 | 15:23
Es weht ein frischer Wind durch die LLM-Welt: bin auf das Deutsch-Französische Projekt Mistral.ai gestoßen und bin gerade dabei, es auszuprobieren. So auf Anhieb - erst wenige Prompts getestet - würde ich sagen, es funktioniert mindestens so gut wie ChatGPT. Der Chatbot "Le Chat" verspricht fundierte und durch Quellen belegbare Resultate. Man darf gespannt sein!
Vor allem kommt man damit gleich mal von dem ganzen amerikanischen und chinesischen Kram weg und kann europäische Lösungen unterstützen.

https://chat.mistral.ai/
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Mithras am 18.12.2025 | 15:52
Ich nutze Mistral schon seit Anfang 2025 und bin sehr zufrieden, ich habe aber auch keinen Vergleich zu ChatGPT. Allerdings bin ich heilfroh das ich die Werbefalle von ChatGPT umgangen bin. (Kack US Produkt! Buy european!)
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 18.12.2025 | 16:36
Mistral gibt es schon lange. Aber auch ihr neustes Modell von diesem Monat ist den Flagship-Modellen hoffnungslos unterlegen. Vergleiche die Benchmarks von Artificial Analysis (https://artificialanalysis.ai/), die einen guten Überblick über die AI-Welt geben.

Und auch Mistral selbst sieht das. Daher fokussieren sie sich auf kleinere Modelle, die man selbst hosten kann und dann immer noch gut sind, wenn von Nvidia keine modernen KI-Chips (die Blackwell B200er) kaufen darf. Sich nicht von den in den USA gehosteten und von US-Konzernen entwickelten Modellen abhängig machen zu müssen, ist ja ein Wert – gerade auch wenn man sich wie Europa als ehemaliger Verbündeter nicht mehr auf die USA verlassen kann. Nur stehen sie damit natürlich mit chinesischen Openweight-Modellen in Konkurrenz und die sind leider auch fast alle besser.

Dennoch finde ich wichtig, dass das einzige europäische Unternehmen nicht aufgibt.

Witzigerweise sind die größten Anteilseigner von Mistral ASML und Nvidia. Letzteren wirft man ja vor, dass sie durch ihre Investition gerade auch in OpenAI die KI-Bubble am Leben halten, weil sie damit ja den Unternehmen das Geld geben, mit dem sie dann Nvidia-Chips kaufen und so die Aktienkurse künstlich hoch gehalten werden. ASML ist weltweit einzige Hersteller der Belichtungsmaschinen für die KI-Superchips. Während ASML aus den Niederlanden ist, sind die anderen Investoren US-Firmen (u.a. auch Microsoft und A16Z) sowie der Saudische Staatsfond, meine ich.

Wie auch immer, Mistral ist okay, aber kein Vergleich zu Claude Opus 4.5 oder OpenAI GPT 5.2-max.

Besondere beim kreativen Geschichtenschreiben ist es schlecht. Auffällig ist, dass das jedes mal eine Elara oder Elena vorkommt und nur so 3-5 Namen überhaupt. Auch sind Ideen wenig kreativ. Dafür ist Mistral eines der besten Modelle, wenn es um das OCRen von Dokumenten geht. Wenig Halluzinationen. Das neue Gemini 3 Flash im Gegensatz dazu, halluziniert mit 93% bei Dingen, die es nicht weiß. Das ist schlecht für Wissensabfragen! Aber gut für Geschichten. War es bei einem ersten Test allerdings nicht. Zu kurz angebunden. Wie auch immer.

Kimi K2 (von Moonshot AI, einem chinesischen Startup) wäre noch ein Tipp, was Texterzeugung angeht, und ist sogar mit MIT Lizenz noch freier als Mistral mit seiner Apache 2 Lizenz. Hier ein one-shot Beispiel. Es ist aber hauptsächlich auf Englisch und Chinesisch trainiert, nicht so sehr Deutsch.

(Klicke zum Anzeigen/Verstecken)

Übrigens, wenn es um die Privatsphäre geht, kommt es nur darauf an, wo das Modell betrieben wird, nicht wer es erstellt hat. Da sind chinesische Modelle kein Problem. Ein Mistral, das auf Azure läuft, weil Microsoft als Investor dabei ist, ist damit auch nicht besser als ein GPT-5.1, das auf Azure läuft, in beiden Fällen kann die US-Regierung weltweit die Daten abfließen lassen.

Gibt es überhaupt Modelle, die auf von europäischen Firmen auf europäischer Hardware betrieben werden und diese Dienste dann für andere anbieten? Auch der größte Dispatcher, openrouter.ai, ist ja ein US-Unternehmen. Ebenso die Infrastrukturprovider Groq und Cerebras.

(Klicke zum Anzeigen/Verstecken)
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 22.12.2025 | 11:52
Habe jetzt Mistral ein wenig ausprobiert, gerade auch mit Themen mit denen ich mich schon auskenne und/oder die ich schon von cGPT habe durchkauen lassen. Leider muss mein Verdikt sehr hart ausfallen: "Mist-ral" trifft es ganz gut. Das Ding hat selbst bei relativ einfachen, googelbaren Fragen einen derartigen SCHWACHSINN ausgespuckt, der dann auch bei Rückfragen nur immer schlimmer wurde, dass ich mich auf weniger leicht nachprüfbare Infos gleich dreimal nicht verlassen würde.

Was hatte ich da zB gerade letztens -- ich gebe den Dialog natürlich stark verkürzt, aber sinngemäß wieder:
ich: "wie groß und schwer wäre ein Gastank für 1kg Helium-3, unter Druck gespeichert?"
Mistral [nach seitenweise Rechnerei und Vergleichen mit anderen Werten]: "300kg."
ich: "Kann nicht stimmen, mach mal einen reality check mit handelsüblichen Tanks."
Mistral: "Helium 50l Tank für 200 bar wiegt 60-80kg. Daraus folgt, ein moderner Tank aus Verbundmaterialien für 1kg Helium hat 600-800kg."
[Anm.: 50l Helium bei 200bar sind knapp 2kg]
ich: "Das kann ja wohl nicht stimmen, wenn ein Stahltank 60-80kg wiegt, dass ein Tank aus modernen Verbundmaterialien 10mal schwerer wäre."
Mistral: [wortwörtlich] "Du hast vollkommen recht – das war ein Fehler in meiner Argumentation. Lass mich das korrigieren und präzisieren, basierend auf realen Daten und physikalischen Prinzipien."
[es folgen wieder seitenweise Berechnungen]
"Fazit:
400–450 kg Tank pro 1 kg ³He (bei 300 bar) ist realistisch für heutige Technologie.
250–300 kg/kg ³He (bei 700 bar) ist machbar, aber technisch anspruchsvoll**."

An der Stelle habe ich dann aufgegeben, aus Mistral irgendeine sinnvolle Antwort zu dem Thema rausbekommen zu wollen, und nach einigen anderen Anläufen auch überhaupt zu irgendeinem Thema. Was für ein Rotz. Was für ein Müll. Wenn das der Stand der europäischen Technik ist, dann aber echt gute Nacht.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 22.12.2025 | 15:34
Ich habe deine Frage ebenfalls bei LeChat eingegeben und bekomme exakt diese Antwort:

Um 1 kg Helium-3 unter Druck zu speichern, würden Sie einen Tank benötigen, der etwa 37,3 Liter Volumen hat. Ein typischer Stahl-Gastank für dieses Volumen wiegt etwa 60 kg. Das Gesamtgewicht des Tanks mit dem Helium-3 wäre daher etwa 61 kg.

Da war dann so ein Hover-Link, um herauszubekommen, wie hoch hoch der Druck für 37,3 Liter sein müsste: Um 1 kg Helium-3 in einem Volumen von 37,3 Litern bei 25°C zu speichern, müsste der Druck im Tank etwa 221.45 bar betragen. Aha!

Das wiederum scheint Industriestandard zu sein – sagte mir Claude Opus 4.5. Der schlug nämlich zuerst vor, zwischen 200, 300 und 700 bar zu entscheiden. Ich wählte 700 bar und bekam zu hören, dass ich einen 12L Typ-4-Komposite-Tank für etwa 7 kg brauche, plus 1 kg Helium sind das also 8 kg. Die 12L hat er bei 20°C aus der molare Masse errechnet.

Beim 200 bar Standard-Stahltank wären es etwa 60–80 kg, sagte die KI. Da liegt LeChat doch also gar nicht so falsch, wenn ich einmal den Ausgaben von Claude glaube.

Ich sagte zwar selbst, das LeChat nicht mit den Flagship-Modellen mithalten kann, aber in diesem Fall ist es bei mir (und ich nutze die freie Version) doch auch okay. Denn weiter nach der 700 bar Lösung gefragt meint LeChat:

Bei einem Druck von 700 bar würde 1 kg Helium-3 in einem Tank mit einem Volumen von etwa 11.8 Litern gespeichert werden. Das Gewicht des Tanks selbst würde etwa 14.16 kg betragen, sodass das Gesamtgewicht des Tanks mit dem Helium-3 etwa 15.16 kg betragen würde.

Das ist doch zwar merkwürdig spezifisch, aber konsistent mit der Antwort von Claude.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 22.12.2025 | 16:41
Und was ist deine Theorie, warum es bei dir sinnvolle Antworten gibt und bei mir nur völligen Hirnriss? Ich könnte gerne den kompletten Verlauf posten - ist aber echt viel.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 22.12.2025 | 16:50
Und was ist deine Theorie, warum es bei dir sinnvolle Antworten gibt und bei mir nur völligen Hirnriss? Ich könnte gerne den kompletten Verlauf posten - ist aber echt viel.
Ich habe die Webseite geöffnet, den Frage in einen neuen Chat kopiert und die Antwort gelesen. Und ich habe natürlich "Thinking" aktiviert. Du auch? Vielleicht hast du im Verlauf einer längeren Diskussion davor schon deine unsichtbare aber bestimmt vorhandene Quota aufgebraucht und die KI war nur noch kurz angebunden? Leider ist das ja alles hochgradig nicht-deterministisch und abhängig davon, wann und wo du fragst, denn ich rate mal, die haben einen festen Rechencluster, dessen Kapazität für alle Chats ausreichen muss.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 22.12.2025 | 17:44
Ich hatte "Think" in der Tat nicht aktiviert; in der App geht das wohl auch gar nicht, nur im Web. Die Antworten kamen auch immer sehr schnell, wie aus der Pistole geschossen, nicht allmählich aufbauend wie bei cgpt. Aber wie gesagt, kurz angebunden kann man die Ausgaben nicht nennen, geschwafelt hat sie wie ne Große.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: postkarte am 22.12.2025 | 18:36
Das hier ist das Ende der Antwort von Mistral-3 14b (also meinem lokalen installierten Modell ohne Server) ohne Reasoning.

(Klicke zum Anzeigen/Verstecken)

Dabei hatte ich den Prompt "wie groß und schwer wäre ein Gastank für 1kg Helium-3, unter Druck gespeichert?" aus dem Posting kopiert und in einen neuen leeren Chat gepostet.

Aufgabenkritisch muss man aber sagen, der Prompt ist sehr vage und ich würde das unter Nischenwissen im Spezialbereich einordnen, was bei einem kleinen Modell, wie meinem lokalen auch wesentlich schlechter oder gar nicht sinnvolle Ergebnisse geben kann und vielleicht sogar sollte.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 22.12.2025 | 20:22
Ich halte Einstiegsprompts gerne erstmal bewusst vage, um den gefallsüchtigen LLMs keinen Hint zu geben, was für eine Antwort ich mir möglicherweise wünschen würde. Wenn es damit eine vernünftige Ausgabe zurande bringt, gut, wenn nicht, kann ich normalerweise immer noch präziser werden.
Aber dieser Totalausfall, den Le Chat da bei mir hingelegt hat, ist durch nichts zu entschuldigen, und auch dass es bei dir bessere Ergebnisse liefert hilft mir Nullkommanull weiter. Ich werde aber bei etwaigen zukünftigen Versuchen mal dran denken, "Think" zu aktivieren. Fragt sich nur, warum das nicht Standardeinstellung ist, wenn es ohne "Think" nur derartigen Müll absondert.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: postkarte am 22.12.2025 | 21:40
Ich bekomme auch in der App die richtigen Antworten. Ich halte es für wahrscheinlich, dass Du "Erinnerungen" angeschaltet hast oder in den Einstellungen "Anweisungen" hinzugefügt hast, die Dein Ergebnis verfälscht haben. Es ist aber sicher nicht verkehrt mal über sich selbst und die Strategie beim Benutzen von LLMs zu reflektieren, wenn man immer was anderes herausbekommt als andere.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 22.12.2025 | 22:00
Was bitte sollen die "Erinnerungen" bitte damit zu tun haben, dass ich hier so einen Quatsch ausgeworfen bekomme?
Mal davon abgesehen dass es halt mein vierter Chat oder so insgesamt mit dem Ding war, also was für Erinnerungen sollen das gewesen sein?
Und woher in Dreiteufelsnamen soll ich WISSEN, dass "Erinnerungen aktiviert" gleichbedeutend ist mit "Maschine wirft irgendwelchen hirnrissigen Gargabe aus"?
Ist ja nett dass du LeChat hier beispringen willst, aber für mich reitet das das System nur immer tiefer in die Scheisse.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: KhornedBeef am 23.12.2025 | 16:47
Ich halte Einstiegsprompts gerne erstmal bewusst vage, um den gefallsüchtigen LLMs keinen Hint zu geben, was für eine Antwort ich mir möglicherweise wünschen würde. Wenn es damit eine vernünftige Ausgabe zurande bringt, gut, wenn nicht, kann ich normalerweise immer noch präziser werden.
Aber dieser Totalausfall, den Le Chat da bei mir hingelegt hat, ist durch nichts zu entschuldigen, und auch dass es bei dir bessere Ergebnisse liefert hilft mir Nullkommanull weiter. Ich werde aber bei etwaigen zukünftigen Versuchen mal dran denken, "Think" zu aktivieren. Fragt sich nur, warum das nicht Standardeinstellung ist, wenn es ohne "Think" nur derartigen Müll absondert.
Ich mutmaße mal, das man auch ohne die Option erledigen kann, wenn man nicht von einem LLM eine funktionierende Mondbasis braucht. Und warum es nicht dauernd an ist hängt vielleicht mit der Frage zusammen, warum für KI jetzt extra neue Kernkraftwerke gebaut werden.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: gilborn am 25.12.2025 | 22:38
Ich möchte demnächst Haus bauen.
Vergleich macht reich, heißt es, weshalb ich mittlerweile mehrere Angebote eingeholt habe.

Meine 2 Fragen sind nun:
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 26.12.2025 | 16:30
Und warum es nicht dauernd an ist hängt vielleicht mit der Frage zusammen, warum für KI jetzt extra neue Kernkraftwerke gebaut werden.
Um diese Kritik einzuordnen.

KI erfordert viel Rechenleistung und diese erfordert viel Energie.

Aber wenn wir wollen, können wir uns das als Gesellschaft leisten, denn relativ zu anderem Energiebedarf (z.B. Verkehr) ist das immer noch sehr wenig. Es ist nur aktuell so, dass dort, wo man gerne Rechenzentren bauen möchte, nicht die Energie verfügbar ist. Und man möchte die Rechenzentren in Monaten errichten, nicht in Jahren.

Ein NVidia GB200 Superchip (das ist aktuell das Beste auf dem Markt) braucht ca. 2700W, davon steckt man 36 in ein 19" Rack, wodurch wir bei ca. 100kW ankommen. 8 Racks montiert man in SuperPOD genannten Containern, die nach oben abgeschätzt 1MW brauchen, weil da auch noch Kühlung, Überwachung, Feuerschutz und was sonst noch so zu einem Rechenzentrum gehören, dranhängt. Läuft die Anlage 24/7 durch (und alles andere wäre unwirtschaftlich, denn so ein SuperPOD kostet in der Größenordnung von $100 Mio), verbraucht das ca. 9GWh pro Jahr.

Das entspricht der Leistung einer kleinen Onshore-3MW-Windkraftanlage bei angenommenen 3000 Betriebsstunden (typischer Wert). Deren Baupreis von ca. $10 Mio spielt bei den Hardware-Kosten eigentlich kaum eine Rolle. In Deutschland gibt es höchstens das Problem, dass die Genehmigung extrem lange dauert und außerdem zu viele den Lügen von AfD und Co aufsitzen und Windenergie ablehnen.

Um jetzt schnell Energie zu bekommen, will man keine langen Genehmigungsverfahren. X.AI hat daher für Colossus 2 ein stillgelegtes Gaskraftwerk wieder in Betrieb genommen, nachdem sie Turbinen in Europa gekauft und in die USA verschifft haben, weil auch der Bau dieser Turbinen Jahre gedauert hätte. Gas zu verbrennen ist natürlich Scheiße für das Klima. Daher hat sich Microsoft ein altes AKW gekauft und will das wieder in Betrieb nehmen. Neu bauen (Google hat solche Pläne) ist bei geschätzten 10 Jahren Bauzeit keine Option. Und ehrlicherweise ist ein bestehendes Kraftwerk zu verwenden besser für das Klima, den dann fällt kein CO2 beim Bau an, und ansonsten ist Kernkraft CO2-neutral. Erkauft man sich natürlich mit dem Betriebsrisiko, das bequem auf die Allgemeinheit abgewälzt wird. Dafür kann ein AKW 1 TWh im Jahr produzieren, was für 100 SuperPODs reicht und dem entspricht, was man auch gerne so in einem Giga-Rechenzentrum verbauen möchte.

Aber was bekommen wir jetzt für die Energie einer Windkraftanlage?

576 GPUs mit ca. 3 ExaFLOPs Rechenleistung (FP8) und 41472 ARM-Kerne als Beifang, plus 108 TB VRAM und 17 TB RAM für die CPUs.

Die GPU-Leistung entspricht dabei ca. 83.000 RTX 3090 Consumer-Grafikkarten (je 36 TeraFLOPS), wenn ich mich nicht in den Einheiten vertan habe. Und ja, es gibt inzwischen bessere Grafikkarten, aber die Rechenleistung variiert nicht so stark.

Würden damit jetzt 83.000 Leute non-stop GTA6 spielen, verbraucht das 290 GWh im Jahr. Das ist mehr als 30x so energieverschwenderisch wie der SuperPOD. Und es gibt weit mehr Leute da draußen, die GTA6 spielen werden – wobei die es natürlich nicht 8760 Stunden im Jahr machen. Es soll aber auch nur ein Beispiel sein, dass wir für andere Dinge weit aus mehr Energie verbrauchen. Über 15 Mio Leute haben sich z.B. Baldurs Gate 3 gekauft und vielleicht im Schnitt 100h gespielt (Abschätzung nach unten). Das entspricht 600 GWh, wenn man 400W für die Grafikkarte zugrunde legt. Und dann kommt da noch der Strom für den Rechner selbst dazu. Mit der Energie kann ich auch 66 SuperPODs betreiben.

Was bedeuten 3 ExaFLOPS? Das sind 3000 PetaFLOPs. Eine KI-Chat-Anfrage liegt in der Größenordnung von 1 PetaFLOP.

Sagen wir, es dauert 6 sek, diese zu berechnen. Manchmal wartet man Minuten, aber da laut OpenRouter das Gros der Anfragen zum Bereich "Roleplay" gehören, wo man also mit der KI zum Spaß chattet, wo meist sofort die Antworten kommen, nehme ich mal 10 Anfragen pro Minute an. Ich glaube, in der Praxis geht da mehr, aber so haben wir eine worst case Abschätzung.

Mein SuperPOD kann damit 1.800.000 Anfragen pro Stunde beantworten, bzw. knapp 16 Mrd pro Jahr.

Was kostet also eine Anfrage? Will ich die Kosten in 5 Jahren (weil man inzwischen schon den Nachfolger BG300 bei Nvidia bestellen kann, obwohl Leute noch gar nicht ihre BG200 bekommen haben) wieder drin haben und meine Investition von $110 Mio mit 25% Rendite zurück bekommen, kostet jede Anfrage 0,172 Cent.

Und der Energiebedarf? 0,56 Wh (9GWh/16Mrd) gemäß meiner kruden Rechnung.

Google selbst behauptet übrigens, dass eine Anfrage bei ihnen 0,24 Wh kostet, was glaubwürdig ist, Gemini auf ihre Spezialchips abgestimmt ist und sie ihre Flash-Modelle nicht ohne Grund so nennen. Auch Amazon behauptet, ihre Inferentia Architektur halbiert die Kosten.

Ich schreibe an diesem Text bereits über eine Stunde und das Licht ist an: 5x4,9W Energiesparlampen macht 24,5Wh oder 44 KI-Anfragen.

Und wenn ich meinen CO2-Footprint klein halten will? Nutze auf jeden Fall nicht Grok! (Nutze am besten gar nix von Musk) Eher etwas, das bei Microsoft gehostet wird, Claude oder Mistral oder ChatGPT. Wie der Footprint bei Google ist, weiß ich nicht. Aber definitiv nicht so schlecht wie bei Musks Unternehmen. Microsoft wollte ja eigentlich schon 2025 Klimaneutral sein und hat das Ziel nach hinten geschoben, weil KI. Tja.

Wenn du noch ein Auto mit Verbrennungsmotor hast, verbrauchst du pro KM das Äquivalent von 600-800 Wh. Und der CO2-Ausstoß ist in jedem Fall höher als bei allem, was Strom erzeugt. Und von Feinstaub wollen wir gar nicht erst reden. Daher ist das hier eine Abschätzung nach unten: Spare also 1 KM Fahrt ein und du kannst dir ohne schlechtes Gewissen 1.200 KI-Anfragen gönnen.

Weil Elektroautos effizienter sind, müsstest du hier auf 3 KM Fahrt verzichten.

Eine Flugreise hin und zurück von Frankfurt nach London hat pro Person eine Energieäquivalenz von ~700kWh (basierend auf dem Energiegehalt des Kerosins und der Angabe der Lufthansa, dass 5,47L/100km pro Passagier verbraucht werden). Dafür kann ich 1,2 Mio KI-Anfragen stellen. Dazu kommt, die CO2-Bilanz bei Kerosin ist in jedem Fall um ein vielfaches schlechter als bei allem, was Strom erzeugt. Wer täglich 1h mit einer KI chattet und 2 Anfragen pro Minute schafft (man muss das ja auch noch lesen und antworten) kann das jetzt 27 Jahre lang machen. Oder einmal nach London fliegen. Ist eine tolle Stadt.

Falls jemand das tatsächlich alles gelesen hat, Danke :)

Ich hatte jedenfalls Spaß daran, die Zahlen mal herauszusuchen, weil immer mal wieder die Diskussion aufkommt, dass KI so viel Energie verschwendet, ohne dass das irgendwie belegt wird. Und es wird nicht einfacher dadurch, dass sich Infrastruktur-Anbieter sehr bedeckt halten, was den Energieverbrauch angeht und die Flagship-Modellanbieter aufgehört haben, die Größe ihre Modell anzupreisen und auch inzwischen alles Agenten sind, die mehr machen, als einfach eine Antwort errechnen. Und die Technik macht natürlich auch Fortschritte, sodass Zahlen von vor einem Jahr nicht unbedingt mehr gelten müssen.

Ein interessanter Aspekt ist auch, dass KI-Antworten, die Zeit sparen, damit auch Energie sparen. Wenn ich z.B. statt 8h vor meinem Rechner zu sitzen, der sagen wir mal 800Wh dabei verbraucht, jetzt nur 4h brauche, weil ich die in 10min generierte KI-Antwort schneller überprüfe als ich sie selbst schreiben könnte, haben wir 56Wh für die KI-Antwort (hochgerechnet) minus 400Wh für die gesparte Zeit, also 344Wh Energie gespart. Dafür kann ich dann 500m mit dem Auto fahren…
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 26.12.2025 | 16:45
  • Welche KI eignet sich am besten, um Angebote zu vergleichen?
    Bei welchen kann ich die Angebote direkt hochladen?
  • Welche KI eignet sich um AGBs nach unerwünschten Klauseln im Kleingedruckten abzuklopfen?
Zu dem Thema kann ich konkret leider gar nix sagen, außer, dass 20€ Monatsgebühr im Vergleich zum Hauspreis quasi nix sind, es sich daher lohnt, einfach Google Gemini, OpenAI ChatGPT und Anthropic Claude alle mit dieser Aufgabe zu füttern. Beachte, dass du durch den Einwurf kleiner Münzen bessere Ergebnisse bekommst, als wenn du die KIs kostenlos nutzt. Daher, für 60€ hast du sie alle.

Mit T3.chat (https://t3.chat/) gibt es auch einen Anbieter, der dir Zugang zu 30+ KIs für pauschal (mit Quota) $8 gibt, wenn es für dich OK ist, dass deine Daten in den USA durch mehrere Hände wandern. Meines Wissens nutzt T3 openrouter.ai, das könntest du ohne Chat-UI natürlich dann auch selbst machen. T3 ist nett, hat aber so weit ich weiß (noch) keine Feature wie das Verstehen und Erzeugen von Word- oder PDF-Dateien.

Für das systematische Vergleichen könnte auch Google's Notebook ML interesant sein, weil die seit ein paar Tagen jetzt auch mit Tabellen arbeiten können. Kannst du kostenlos probieren.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: gilborn am 26.12.2025 | 18:18
Danke!

Ja, auf dem Trichter bin ich auch, die Gebühr kann man deutlich schlechter anlegen.

Ich werde einfach mal mit einem von den dreien anfangen...
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 26.12.2025 | 19:07
Gemini mischt sich ja schon immer ungefragt bei jeder Google-Suche ein, und rotzt dabei auch regelmäßig einen so unGLAUBlichen HANEbüchenen SCHWACHsinn raus, dass ich nie und nimmer auf die Idee käme, diesen Bot gezielt zu irgendetwas zu befragen, gleich 100.000mal nicht wenn es um Geld geht. Ich kann da auch gerne mal ein paar Screenshots raussuchen, die ich mir von Extra-super-sonder-bekloppten Antworten gemacht habe.

Hier Beweisstück A:
selbsterklärend -- ich suchte nach Anagrammen zu Farbwörtern. "Silber ist ein Anagramm von Silber" hat zwar Lisa Simpson / Jeremy Irons Vibes, ist aber ansonsten noch das Einzige auf der Liste was irgendeinen Sinn macht.

(https://www.tanelorn.net/index.php?action=dlattach;topic=130453.0;attach=39794)
(okay, ein paar davon ergeben auf Englisch Sinn, zB blue / lube, aber die KI sollte da auch selber merken, dass sie sowas nicht übersetzen kann.)

Beweisstück B:
(https://www.tanelorn.net/index.php?action=dlattach;topic=130453.0;attach=39796)

Das hier war ein bewusster Foil -- ich habe Google nach der Bedeutung einer "Redewendung" befragt, die es in Wahrheit gar nicht gibt. Statt dies zu erkennen ("Das ist in keiner mir bekannten Sprache eine Redewendung") oder ihr Unwissen zuzugeben, halluziniert sie halt einfach irgendwas.
Viel Spaß dabei, dir auf Basis dieser Expertise ein Haus zu kaufen.  >;D
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: gilborn am 26.12.2025 | 19:21
Na ja, wenn man Angebote vergleicht, kann man sich die Unterschiede anzeigen lassen, dann sollte man es natürlich verifizieren.
Dafür scheint es mir grundsätzlich ein geeinetes Werkzeug zu sein.

Ich lasse aber nicht die KI entscheiden, welches ich nehme...
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 26.12.2025 | 19:48
Ich habe das Gefühl, Feuersänger, du willst KI einfach scheiße finden.

Gebe ich "Bitte zeig mir Anagramme für Farben." im KI-Modus von Google ein:

Die Klassiker:
Rot ➔ Tor (oder Ort)
Blau ➔ Laub
Braun ➔ Urban
Beige ➔ Biege (von biegen oder die Kurve)
Orange ➔ Organe (oder Onager, ein Wildesel/Wurfmaschine)
Magenta ➔ Magnate (Mehrzahl von Magnat)
Eisgrau ➔ Ausgeier (jemand, der etwas gierig betrachtet)
Rubin ➔ Unrib (seltenes Wort für "unreif" in regionalen Varianten)

sowie

Farbe ➔ Faber (lateinisch für „Schmied“ oder „Handwerker“, bekannt durch den Schreibwarenhersteller Faber-Castell)

Es sollte außerdem doch mittlerweile klar sein und niemanden verwundern, dass Halluzinationen normales Verhalten einer KI sind. Das sind KEINE Datenbanken. KIs sind NICHT-deterministische Assoziationsmaschinen. Deine Anklage ist ungefähr so schlüssig wie der Vorwurf "in meinem Brockhaus-Lexikon stehen gar nicht die aktuellen Nachrichten der Tagesschau, was für ein Scheißbuch".

Ich weiß auch nicht, was du mit deiner KI machst, weil du ja nie die Prompts nennt, aber wenn ich "Bitte erkläre mir das Sprichwort 'Juggling fish at full moon'" bei Gemini 3 Pro eingebe, kommt:

Das Sprichwort "Juggling fish at full moon" ist im Englischen oder Deutschen kein gängiges oder allgemein bekanntes Sprichwort. Es gibt keine direkten Entsprechungen oder Erklärungen dafür in den üblichen Sammlungen von Sprichwörtern und Redewendungen.

Danach diskutiert die KI noch was es bedeuten könnte, wenn es existieren würde und endet dann damit:

Im Wesentlichen würde es die Vorstellung vermitteln, etwas völlig Lächerliches und zum Scheitern Verurteiltes zu versuchen.

Und ich finde, dass beschreibt eigentlich recht gut, was du zu beweisen versuchst :)

PS: Auch GPT 5.2 Thinking erklärt mir, dass das Sprichwort nicht existiert, komm aber zu einer ähnlich vermuteten Bedeutung wie Gemini und weist mich anschließend darauf hin, dass es mit 水中捞月 / 海底捞月 ein ähnliches Sprichwort im Chinesischen gibt.


Texte zusammenzufassen ist übrigens ein anderes Anwendungsfeld als Q&A und das Risiko von Halluzinationen ist hier deutlich geringer, weil hier der Kontext größer ist. Ganz einfach (und ein bisschen falsch) ausgedrückt: Erstes ist eine Aufgabe des Weglassens, letztes eine Aufgabe des Hinzufügens. Und dabei sind Fehler wahrscheinlicher.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 26.12.2025 | 20:18
Zitat
Ich habe das Gefühl, Feuersänger, du willst KI einfach scheiße finden.

Was soll denn jetzt diese schwachsinnige Unterstellung?

Der Prompt im ersten Fall war einfach "Anagramme für Farben", viel einfacher als das geht es wohl nicht, im zweiten halt die Frage nach der Bedeutung der vermeintlichen Redewendung, einfach um zu sehen ob sie erkennt dass es das nicht gibt. Kann ich ja auch nix dafür, dass es bei mir nur diesen Müll ausgegeben hat -- besser als mit diesen Screenshots kann ich es dir auch nicht beweisen, dass Gemini das ausgespuckt hat.

Übrigens hat Gemini auch in der Vergangenheit schon (nicht mir, aber dokumentiert) empfohlen, Nudeln in Benzin zu kochen und ähnliche Späße.

(https://files.mastodon.social/media_attachments/files/112/493/316/164/886/273/original/e03102ab11a9621e.png)

ChatGPT ist da übrigens insgesamt ein gutes Stück besser; da habe ich auch schon solche Foils ausprobiert, und meistens hat es diese erkannt. Und ja, ich teste das bewusst und gezielt, damit ich einen Eindruck davon bekomme, wie sehr ich mich auf Antworten verlassen kann wenn ich es mal nicht schon im vorhinein selber weiß.

cGPT verwende ich recht viel, insbesondere bei der Entwicklung meines Redshift-Settings, und diese Aufgaben kommen seinen Fähigkeiten meist ganz gut entgegen -- da, wo es um eine Kombination aus enzyklopädischem Wissen und Rechenarbeit geht. _Manchmal_ weist es mich auch tatsächlich (meist so ganz non-chalant und en-passant) auf Dinge hin, die mir bis dahin nicht bewusst waren.
Manchmal kommt cGPT auch ins Schwimmen, ohne zuzugeben dass es sich nicht mehr richtig auskennt, aber mittlerweile habe ich da ein ganz gutes Gespür dafür entwickelt, anhand der Formulierungen, Syntax und anderen Hinweisen zu erkennen wenn es soweit ist.

P.S.: und natürlich lernt die KI auch mit der Zeit aus ihren Fehlern. Ich hatte zB dieses Farbending vor einigen Wochen gefragt und das Fisch jonglieren noch früher; in der Zwischenzeit wurden diese Anfragen vermutlich ausgewertet und die Ausgaben daraufhin verbessert. Wenn du heute die Benzin-Frage stellst kriegst du auch nicht mehr den Vorschlag, Spaghetti darin zu kochen.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: postkarte am 26.12.2025 | 21:21
ChatGPT ist da übrigens insgesamt ein gutes Stück besser; da habe ich auch schon solche Foils ausprobiert, und meistens hat es diese erkannt. Und ja, ich teste das bewusst und gezielt, damit ich einen Eindruck davon bekomme, wie sehr ich mich auf Antworten verlassen kann wenn ich es mal nicht schon im vorhinein selber weiß.
[...]
Manchmal kommt cGPT auch ins Schwimmen, ohne zuzugeben dass es sich nicht mehr richtig auskennt, aber mittlerweile habe ich da ein ganz gutes Gespür dafür entwickelt, anhand der Formulierungen, Syntax und anderen Hinweisen zu erkennen wenn es soweit ist.
Du vermenschlichst die LLMs und unterstellst Dinge, die sie nicht können. Zum Beispiel "Verstehen" oder "Auskennen". Selbst die Enzyklopädie Analogie ist schwierig und nicht selten falsch, weil große LLMs zwar tatsächlich relativ viele fixe Bezüge in Form „gespeichert“ haben, also als komplett aufrufbare Fakten, aber man kann von außen nicht sehen, ob es abgerufene Fakten aus dem LLMs sind oder diese stochastisch sinnvoll ergänzt worden sind.

Wenn ich mir was von Dir zu Weihnachten wünschen darf: bitte schau Dir erst mal zum Beispiel dieses tolle Video an, das die grundlegende Technik ganz schön erklärt, bevor Du antwortest. https://www.youtube.com/watch?v=LPZh9BOjkQs (https://www.youtube.com/watch?v=LPZh9BOjkQs)

Zum Thema "Schwachsinnige Ergebnisse" und "Erinnerung". Alle großen LLMs mit Anmeldung bewahren einige Daten aus den bisherigen Gesprächen/Sitzungen auf und füttern die als Kontext mit in neue Gespräche. Wenn Du am Anfang immer bewusst Unsinniges in die Gespräche fütterst, verwirrt das im schlimmsten Fall auch noch folgende Gespräche/Sitzungen, außer Du stellst dieses Feature explizit aus.


Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Feuersänger am 26.12.2025 | 22:24
Kann das sein, dass du eine sehr literal minded person bist, dass du nicht in der Lage bist, bildliche Ausdrucksweise als solche zu erkennen?

Du kannst mir schon glauben, dass ich wenigstens in Grundzügen _weiß_ wie ein LLM funktioniert. Ich werde mich trotzdem nicht derart ausdrücken, dass "da wohl ein Parameter zu hoch gewichtet wurde". [und mal so nebenbei, in welchem Universum kann jemals bei "sauté garlic and onion in" ausgerechnet "gasoline" den Stich als wahrscheinlichste Fortsetzung machen?]
Und letztlich ist ja gerade der einzige und wahrhaftige SINN eines LLM, dass man sich in natürlicher Sprache mit ihm unterhalten kann und Gedanken so formulieren wie man es im Gespräch mit einem Menschen tun würde. An dieser Latte müssen sich die Dinger messen lassen, sonst kann man das Interface auch gleich wieder rigide machen.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Quaint am 29.12.2025 | 02:23
Hatte mit Le Chat eigentlich gute Erfahrungen gemacht, aber heute hat er mich enttäuscht. Wollte über eine Art von Exalted recherchieren, hatte zwar erst den falschen Namen im Kopf, aber er leugnet einfach die Existenz von Liminals, dabei haben die nen frei einsehbaren Wikiartikel in der White Wolf Wiki, die wohl als Autorität in diesem Bereich gelten kann. Mache ich meine Recherche halt altmodisch.  :-\
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 29.12.2025 | 02:43
Hatte mit Le Chat eigentlich gute Erfahrungen gemacht, aber heute hat er mich enttäuscht.
Ich weiß nicht, was ihr immer komisches macht, dann niemand hier scheint es zu schaffen, reproduzierbare Prompts anzugeben. Hast du LeChat auch erlaubt, im Web zu recherchieren? Und nutzt du für jeden neuen Gedanken auch einen neuen Chat?

Wenn gibt es bei Exalted Liminals?, kommt:

Ja, in Exalted (dem Pen-&-Paper-Rollenspiel von Onyx Path Publishing) gibt es Liminals als eine Art von Wesen. Liminals sind mystische, oft geisterhafte oder dämonische Kreaturen, die in den Schwellenbereichen (engl. Threshold) existieren – also in den Gebieten außerhalb der zentralen Schöpfung. Sie sind eng mit den Themen Grenzen, Übergänge und das Unbekannte verbunden.

D.h. bei mir leugnet LeChat (kostenlose Version) nix. Ob die Info stimmt kann ich mangels Kenntnis des System (ich habe es zwar im Schrank stehen, aber vor gefühlt 20 Jahren dort hineingestellt und seit dem nicht mehr angefasst).
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: Quaint am 29.12.2025 | 03:36
Ja ist halt quatsch was der erzählt. Das ist irgendwie fabuliert aufgrund des Namens scheint mir. Hier mal der Wikiartikel. Und webrecherchen darf le chat bei mir machen, hielt er aber nie für nötig.

https://whitewolf.fandom.com/wiki/Liminal_Exalted (https://whitewolf.fandom.com/wiki/Liminal_Exalted)

und hier teile ich gern mal die fragliche Unterhaltung

https://chat.mistral.ai/chat/3a106bb5-427c-4751-9918-26122f051aee (https://chat.mistral.ai/chat/3a106bb5-427c-4751-9918-26122f051aee)
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 29.12.2025 | 13:43
Danke. Mir antwortet LeChat (ich habe Thinking & Websuche aktiviert) deutlich kürzer und ohne Fettschrift. Es bejahrt, Exaltet zu kennen. Auf die Frage nach "getimanian" bekomme ich:

"Getimian Exalted" sind eine besondere Art von Exalted im Rollenspiel "Exalted". Sie wurden ursprünglich während des Primordialen Krieges von Sacheverell und Orasmus erschaffen und haben ihre eigenen Schicksalwebstühle in ihren Wirbelsäulen, die sie verwenden, um die Realität durch ihre eigenen Versionen zu ersetzen.

Die nächste Frage wird lapidar mit "Die Exalted, die mit der Unterwelt in Verbindung stehen, sich Leichenteile einbauen können und oft als Geister- oder Untotenjäger arbeiten, heißen Abyssal Exalted." beantwortet.

Und die Frage nach "Liminal" wird so beantwortet:

Die sogenannten "Liminal Exalted", auch bekannt als Kinder des Bodens oder Chernozem, sind eine spezielle Art von Exalted, die in der dritten Edition von Exalted eingeführt wurden. Sie sind mit der Wiederbelebung und Leichen verbunden und arbeiten oft als Geisterjäger und Exorzisten.

Leugnen tut meine Version auch dieses mal nichts. Die letzte Antwort ist auch noch umfangreicher und auch die einzige, die Fettschrift benutzt. Sehr komisch.

Zum Vergleich habe ich auch noch mal GPT 5.2 thinking herangezogen.

Auch das bejahrt, Exaltet zu kennen. Auf die nächste Frage mit dem Schreibfehler kommt dann:

Vermutlich meinst du Getimian Exalted (oft wird’s versehentlich anders geschrieben). Das ist ein Exalt-Typ in Exalted 3e und spielbar in Exalted: Essence.

Den Rest der langen Antwort lasse ich mal weg. Auch zu "Liminal" kann ChatGPT was sagen:

Liminal Exalted sind in Exalted (v. a. Essence/3e) die „Zwischenwesen“ aus Leben, Tod und dem Versuch, den Tod rückgängig zu machen: Sie entstehen typischerweise, wenn jemand mit Leichen, Erde und Thaumaturgie eine Auferweckung versucht – die eigentlich unmöglich ist.

Was ich übrigens auch immer mache und mich dann ärgere: Nach "Kannst du …" fragen. Besser ist die aktive Form "erzähle mir etwas über …". Ersteres könnte die KI ja völlig korrekt mit "Ja." beantworten. Würde ich als Mensch auch machen.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: KhornedBeef am 4.01.2026 | 22:23
Danke für die umfangreiche Einordnung zum Stromverbrauch, sma!
Das ist tatsächlich in der Liga, wo es stromsparend ist, das LLM Standardkram machen zu lassen.
Ich denke trotzdem, dass das Problem der schnellen Skalierung dann etwas mit den Preismodellen und der Verfügbarkeit zu tun. Also nicht nur Strom, auch Chips, klar.
Titel: Re: "I'm afraid I can't do that, Dave" - der LLM und KI Thread
Beitrag von: sma am 5.01.2026 | 13:08
Danke für die umfangreiche Einordnung zum Stromverbrauch, sma!
Das ist tatsächlich in der Liga, wo es stromsparend ist, das LLM Standardkram machen zu lassen.
Ich denke trotzdem, dass das Problem der schnellen Skalierung dann etwas mit den Preismodellen und der Verfügbarkeit zu tun. Also nicht nur Strom, auch Chips, klar.
Gerne.

Ein wesentlicher Punkt in meiner Abschätzung: Ältere Hardware ist um eine Größenordnung schlechter. Ich hatte gelesen, dass GB200 etwa 25x so effektiv ist wie H100, bei "nur" doppeltem Preis. Und nicht jeder darf diese neuen Chips besitzen. China muss mit der Resterampe (H20 als abgespeckte H200-Export-Variante) Vorlieb nehmen oder über Indien geschmuggelte Systeme nutzen.

(Das ist übrigens ein Cyberpunk/NearFuture-Szenario, das zu wenige auf dem Schirm haben: Schmuggel von Rechenzentrumskomponenten: Schafft einen Container im Wert von $100 Mio von A nach B und lasst euch nicht von der Konzernpolizei erwischen, die wiederum aber auch die teure Hardware nicht zerstören will. Oder genau anders herum: Beschafft den Container.)

China versucht daher auch selbst Chips herzustellen, liegt aber noch mindestens 5 Jahre hinter Nvidia. Inzwischen erlaubt Trump auch wieder H200-Chips (immer noch eine Generation hinter B200), aber nun will China nicht mehr, weil sich die Regierung nicht von US-Chips abhängig machen wollen. Daher braucht China um so mehr Taiwan – natürlich mit intakten Werken – weil TSCM der weltweit einzige Hersteller für diese Superchips ist. Die USA haben zwar TSMC auch "überredet", in den USA ein Werk zu bauen (Samsung als zweiter großer Player hat auch eines) aber noch können sie trotz aller Anstrengungen (sie importieren z.B. das Wasser) dort nicht fertigen. Wo ich mir natürlich auch vorstellen kann, dass Taiwan gar kein Interesse hat, ihren einzigen Grund, warum die USA sie vor einer Annexion durch China schützen sollte, wegzugeben. Den ohne Chips aus Taiwan wird die US-Wirtschaft zusammenbrechen, egal ob es nun eine KI-Bubble gibt oder nicht. Die europäische auch, aber das ist hier nicht weiter relevant.

Das Wettrennen um KI-Dominanz ist IMHO mit dem Space Race der 60er Jahre zu vergleichen. Nur dass es jetzt einfach um Macht und Geld und nicht um Wertesysteme geht. Falls AGI möglich ist (wovon ich nicht überzeugt bin, weil jedenfalls nicht mit aktuellen LLMs), wird es automatisch ein Monopol werden, denn durch die stete Selbstverbessung des Systems können die anderen dann nicht mehr aufholen.

Ein anderer wichtiger Punkt: Ich habe nur Textverarbeitung betrachtet. Bilderzeugung könnte aufwendiger sein und Video-Erzeugung ist definitiv aufwendiger und wie sprechen hier von 1-2 Größenordnungen.

YT mit KI-Videos zu fluten, um ein paar $ zu verdienen, weil der Plattform (und den Video-Erstellern) die Inhalte egal sind und nur wichtig ist, wie häufig die Leute Werbung gucken, ist damit, was Energieverbrauch angeht, wesentlich weniger einfach zu vertreten als z.B. KI zur automatischen Übersetzung aller verfügbaren Bücher zu nutzen um diese mehr Leuten zugänglich zu machen. Denkbar ist nicht nur die Übersetzung zwischen Sprachen sondern auch z.B. in Einfache Sprache oder Blindenschrift. Aber da spricht natürlich auch meine "Social Media war ein Fehler" Überzeugung mit.

Ebenfalls unberücksichtigt ist, dass der viele Strom größtenteils Wärme erzeugt, die von den Chips weg muss, und dazu wird Wasser benutzt, was man man wie Musk bei Colossus 2 einfach verdampfen kann, auf dass die Häuser der Anwohner drumherum dann langsam verrotten. Zumindest haben sie aus Eigeninteresse ein Klärwerk gebaut, von dem auch irgendwann die Bevölkerung profitieren soll. Aktuell verbrauchen sie "bis zu" 18 Mio m³ im Jahr. Hatte ich schon erwähnt, das alles, was Musk anfasst zu Scheiße wird?

Googles Giga-Rechenzentrum in Iowa (Council Bluffs) kam 2024 auf 4 Mio m³. Amazons Giga-Rechenzentrum in Indiana (Project Rainier) kam auf 1 Mio m³. Meiner Recherche nach ist das RZ von Amazon doppelt so groß wie das von Google.

Microsofts neues Rechenzentrum hat (weil der Bundesstaat sie gezwungen hat) ein geschlossenes System, das nur minimal Wasser verbraucht: 0,3 L/kWh. Bei 9 GWh im Jahr sind das 300 m³ pro SuperPOD. In Kiel kostet der Kubikmeter gewerblich 2€, das ist vernachlässigbar, selbst 100 oder 1000 Containern – wobei man fairerweise noch die Kosten für das Recycling berechnen muss, was sicherlich Millioneninvestitionen sind und auch Strom verbraucht.

Zur Einordung: Unsere geliebte Autoindustrie in Form von VW verbrauchte 2024 knapp 9 Mio m³ Wasser (allerdings weltweit). Grünheide, wo das ja zum Problem erklärt wurde, sind es 0,5 Mio m³ (von erlaubten 1,4 Mio m³). Der Jahreswasserverbrauch von Kiel (lt. Stadtwerke) liegt bei knapp 12 Mio m³ (128L/Kopf/Tag). In München sprechen wir von 110 Mio m³ (lt. Wikipedia).

Würden die Münchner nur so viel Wasser verbrauchen wie die Kieler, hätten wir 35 Mio m³ eingespart, mit denen zwei Musksche Giga-Rechenzentren die Umwelt befeuchten könnten. Vielleicht machen die dem Elon einfach mal ein Angebot, Platz für zwei Hallen á 0,1 km² sollten sich doch im Englischen Garten (3,75 km²) finden und ein abgeschaltetes Atomkraftwerk hat der Söder doch auch im Angebot. Durch die Isar fließen ~95m³/s bei Niedrigwasser, also im Jahr 3 Mrd m³, das reicht locker.