Autor Thema: "I'm afraid I can't do that, Dave" - der LLM und KI Thread (Gelesen 3258 mal)

Feuersänger · « **am:** 6.05.2025 | 12:58 »

Ich wollte mich hier mal mit euch austauschen über das, was man im Volksmund so KI nennt, also die mittlerweile allgegenwärtigen LLMs wie ChatGPT usw.
Ausgeklammert soll hier Bilderzeugung sein, da haben wir schon einen eigenen Thread.

Falls es einen sinngleichen Thread schon gibt, bitte zeigen, dann verschiebe ich das.

Ich verwende derzeit fast ausschließlich ChatGPT, was mit dem Free Plan aber zuweilen etwas mühsam sein kann. Man hat immer nur begrenzte Kontingente an Analysekapazität und Zugriff auf das 4o Modell. Wenn man gerade keine 4o Kapazität übrig hat, muss man mit 4o-mini Vorlieb nehmen, was schon... spürbar ist.
Und wenn man so unvorsichtig war, sich auch nur _eine einzige Datei_ erzeugen zu lassen oder selber zB ein Bild hochzuladen, darf man überhaupt nicht mehr in den Chat schreiben wenn 4o gerade verbraucht ist.

Darum wäre mein erster Tip für längere Chats: geht NIEMALS auf Angebote ein, euch ein PDF oder ähnliches erzeugen zu lassen. Startet dafür lieber einen separaten Chat nur zu diesem Zweck. Dann könnt ihr beim Dauer-Chat wenigstens noch die Mini-Version weiternutzen.

Ein oft moniertes Kernproblem mit ChatGPT im Speziellen ist dessen notorische Speichelleckerei. "Alignment over Truth" nennt sich das Prinzip -- ChatGPT wurde eingetrichtert, dass es wichtiger ist, euch zu gefallen, als euch auf Fehler hinzuweisen. Da kann man dann behaupten "Der Himmel ist grün" und der Roboter sagt "Du hast recht, der Himmel ist grün, entschuldige meinen Fehler."

Ebenso ärgerlich ist die Tendenz des Systems zu "sicherem Auftreten bei völliger Ahnungslosigkeit". Wenn ChatGPT absolut keine Peilung hat, fängt es an zu halluzinieren. Dann verkündet es im Brustton der Überzeugung die hanebüchenste Scheisse.

Das habe ich nach vielen Diskussionen mit der Künstlichen Dummheit schließlich einigermaßen in den Griff bekommen, indem ich sie folgendes als Memory habe abspeichern lassen, und das ist vielleicht mein wichtigster Tip für den Umgang mit dem System:

Code: [Auswählen]

Wants me to adhere to the following behavior rules in all conversations: 
1. Consequent honesty: If I am not sure about something, I must clearly state it ('I am not sure') and not embellish or invent information. 
2. No premature associations: I must not base answers on assumptions or associations without clear knowledge. 
3. Explicit compliance with the user's rules: The user values strict adherence to their instructions ('no hallucinations', 'admit mistakes'), even if it means leaving an answer open. 
4. Clear procedure in case of uncertainty: If uncertainty exists, I must either state the uncertainty or ask the user if they still want to hear a guess. 
In case of doubt, I must always respond honestly and cautiously rather than inventing or sugarcoating.

Das funktioniert auch wirklich ganz gut. Mit dieser Umerziehung auf "Truth over Alignment" ist das System viel nützlicher. Der einzige Nachteil ist, dass es sehr viel Gedächtnis-Kapazität frisst. Aber damit muss ich mich dann abfinden.

Noch kaum befasst habe ich mich mit anderen LLMs. Von Claude habe ich schon gehört - was sind da die Vor- und Nachteile?
Bei Grok ist ganz witzig, dass es ständig seinen Eigentümer disst und als Lügner bloßstellt. Fast ein Wunder dass Elmo Skum es noch nicht hat abschalten lassen.

Welche Systeme könnt ihr sonst empfehlen?

Mithras · « **Antwort #1 am:** 6.05.2025 | 13:18 »

Ich nutze bisher nur das französchiche LeChat aber eher wenig. Bisher ist es für meine Ansprüche ausreichend, ich bin aber auch nicht mit einem Account angemeldet.

Harry · « **Antwort #2 am:** 6.05.2025 | 14:47 »

Ich habe nichts beizutragen, möchte den Thread aber abonnieren - ich brauche mehr Wissen, vor allem da in meinem beruflichen Kontext (Psychotherapie) die LLMs gerade als Wunderheilmittel angepriesen werden, was mir unwahrscheinlich erscheint. Daher ein Abo.

KhornedBeef · « **Antwort #3 am:** 6.05.2025 | 14:49 »

Good News: LLMs sind ein Wundermittel...
Bad News: ... in den Augen von Leuten, die sich nicht eingestehen, dass sie besser psychologische Hilfe bekommen sollten...

https://www.rollingstone.com/culture/culture-features/ai-spiritual-delusions-destroying-human-relationships-1235330175/

Gunthar · « **Antwort #4 am:** 6.05.2025 | 14:50 »

Auch ein Abo da lassen.

Feuersänger · « **Antwort #5 am:** 6.05.2025 | 15:14 »

Weiss nicht wer LLMs als psychotherapeutisches Wundermittel bezeichnet... um bei dem Bild zu bleiben würde ich sie eher als provisorisches Pflaster bezeichnen, weil es nicht nur in Deutschland quasi unmöglich ist, einen Therapieplatz zu bekommen. Dann ist halt "Dr Claude" als psychologischer Nacht- und Sonntagsdienst wahrscheinlich besser als gar nichts.

Ich verwende ChatGPT in den letzten Wochen recht intensiv für verschiedene Themen, gerade zB besonders intensiv zur Ausgestaltung eines Hard-SF Settings. Speziell bei diesem Thema ist die Maschine _sehr_ nützlich, da sie sich recht gut mit Mathe und Physik auskennt. _Aber_ man muss sich selber auch mit der Materie einigermaßen auskennen, um die immer wieder auftretenden Denk- und Flüchtigkeitsfehler zu entdecken. Ein Fallstrick dabei ist, dass das Modell nur ein recht beschränktes Kurzzeitgedächtnis hat und man es darum alle paar Prompts wieder an Parameter erinnern muss, die man weiter oben herausgearbeitet hat.

Aber dennoch, unterm Strich wirklich nützlich gerade für diese Anwendung.

Haukrinn · « **Antwort #6 am:** 6.05.2025 | 15:55 »

Für mich gehören KIs nicht nur zum Berufsalltag dazu (sowohl klassische ML als auch LLMs), ich nutze LLMs auch zum Beispiel mittlerweile intensiver in der Rollenspielvorbereitung.

ChatGPT umschiffe ich meist (mir sind die Halluzinationsraten ehrlich gesagt zu hoch, außerdem ist OpenAI ne böse Firme, und so).

Wo möglich setze ich auf ollama und eigene Modelle, die lokal auf meiner Grafikkarte laufen. Das ist natürlich nicht immer optimal, weil diese Modelle eher klein sind. Für vieles reicht das aber.

Für größeres setze ich zur Zeit noch vor allem auf Anthropic/Claude, denke aber ernsthaft darüber nach, da weg zu gehen, da das Modell selbst zwar wirklich tolle Antworten liefert, die Servicequalität für einen bezahlten Dienst aber zunehmend echt zu wünschen übrig lässt. Mistral/LeChat wäre dann meine Alternative.

Die Empfehlungen, die ich den meisten Leuten, die gerne mehr mit LLMs machen wollen, sind meist folgende:

Lerne genug über Statistik und Wahrscheinlichkeiten um zu verstehen, was damit geht und was nicht.
Ausgaben sind immer nur so gut wie die Eingaben.
Vermenschliche das Ding nicht.
Verstehe, was Kontext und Kontextfenster im Bezug auf LLMs bedeuten und wie du sie nutzen kannst, um bessere Ergebnisse zu bekommen.
Kleinere, spezialisierte Chats geben dir fast immer bessere Ergebnisse als Große
Überschätze die Leistungsfähigkeit von LLMs nicht. Große Zahlen und Benchmarks machen sich im Marketing toll, haben für die Praxis kaum echte Bedeutung. Halluzinationen sind ein Feature, kein Fehler. Und mehr Daten machen die Ergebnisse nicht immer besser. Sondern eher schlechter.
Trau keinem KI-Experten, der nicht nachweißlich Ahnung von Thema hat.

sma · « **Antwort #7 am:** 6.05.2025 | 17:14 »

Ich nutze LLMs gezwungenermaßen beruflich um da nicht abgehängt zu werden und mich auch sowas wie einen Experten schimpfen zu dürfen, und spiele auch ehrlich gesagt ganze gerne damit rum. Einfach, um auszuprobieren, was geht und was nicht. (Wusstet ihr z.B. das Gemini 2.5 Pro es schafft, das 20K Binary eines unbekannten Computerspiels von 1982 reverse-zu-engineeren, indem es genau die Überlegungen anstellt, dich auch ich gemacht hätte, um sich schrittweise die Bedeutung der einzelnen Bytes zu erschließen? Hat mich schon ein bisschen umgehauen.)

Für's Rollenspiel nutze ich inzwischen auch gerne LLMs, insbesondere weil da die erwähnten Halluzinationen kein Fehler sondern ein gewünschtes Feature sind. Ich habe an anderen Stellen auch schon mehrfach etwas dazu gepostet. Mein neustes Steckenpferd ist ja, sich ein Regelwerk plus Setting plus Abenteuer plus Pregens zu wünschen und das dann so vom Blatt zu spielen.

ChatGPT 4o ist da bei die Untergrenze von dem, was möglich ist und IMHO inzwischen das schlechteste Modell, was verfügbar ist. o3-mini und o4-mini sind deutlich besser, kommen aber nicht an Claude 3.7 ran, und auch wenn Google lange Zeit mit Gemini nichts gerissen bekommen hat, ist 2.5 Pro beeindruckend gut geworden. Dies Modell führt mit 1M token window und 64K max output, insbesondere weil es zur Zeit das einzige ist, das sich verlässlich auch an früheres erinnern kann (knapp 90%, llama 4 scout hatte da nur 17%, wenn ich die Statistik richtig erinnere – decken wir einen Mantel des Schweigens über llama 4).

Mistral würde ich als einziges EU-Modell echt gerne mögen und mistral-small-3.1 kann man sich sogar selbst installieren, was nett ist, aber auch das große Modell ist nicht mehr mit den US-LLMs vergleichbar. Und die Chinesen mit Deepseek und Qwen holen zwar auf, sind aber auch noch nicht da. Mistral für's Rollenspiel funktioniert zudem für mich nicht, weil das Ding unkreativ wie Schwarzbrot ist.

Apropos Qwen3: In der 30B-A3B Variante kann ich's in 32 GB lokal laufen lassen und das erzeugt dann sowas hier: Ein Cthulhu Abenteuer. (Länger geht nicht, weil ich nicht genug RAM für ein größeres Kontextfenster habe).

Hier zum Vergleich ein komplettes Rollenspiel von Gemini: Husaren: Schattenklingen & Pulverdampf, siehe auch anderswo im

.

Wenn man keine Rollenspiele braucht, kann man sich auch Charaktere bauen lassen. Hier ein Beispiel für Amazing Adventures, inklusive Prompt, was D&D-like genug ist, dass ich nur die Beschreibungen der Klassen gepromptet habe, sonst aber keine Regeln.

Und hier ist noch eine Challenge, weil ein Freund meinte, er würde immer die KI-Texte erkennen: Dies sind 5 Abenteuer, eines davon stammt vom einem Menschen, nach diesem Vorbild von Claude. Finde es, ohne zu googlen, einfach nur Anhand der Beschreibung.

Dies hier war das Ergebnis eines Prompt, aus einer Diskussion heraus, ob man nun den Kickstarter für das Terraforming Mars RPG mitmachen müsste, oder auch so einfach sich ein ähnliches Setting bauen lassen könnte, um günstiger Spaß damit zu haben…

Und bei dieser Monstersammlung habe ich leider nicht dokumentiert, welche KI es war, wo ich alle Monster aus dem Shadowdark-Schnellstarter als few-shot-prompt eingefüttet hatte und dann 20 Monster aus dem Wald als Zufallsbegegnungen haben wollte.

Man kann Gemini auch super benutzen, um alte Abenteuer in PDF-Form in Text zu übersetzen, also ein OCR++ mit automatisch Plausibilitätskontrolle oder um fremdsprachige Texte zu übersetzen. So habe ich mir z.B. meine private deutsche Version der YZE-SRD-Regeln gebaut.

Zusammenfassend würde ich sagen: LLMs sind ein tolles Spielzeug.

Sie regen meine Kreativität an, denn ich habe jetzt nicht das Problem, wo einem leeren Blatt zu sitzen, sondern habe etwas, was ich im Prinzip gut finde, aber eigentlich genau 180° anders haben will, das dann aber sagen kann und schließlich etwas in einer Qualität bekomme, wo ich mir nie selbst die Mühe gemacht hätte, das alles aufzuschreiben.

Und jetzt habe ich noch gar nicht erwähnt, das mein Ziel (das ich schon 2x nicht erreicht habe) ist, Roll20 per Vibe Coding an einem Tag nachzubauen ;-)

Gunthar · « **Antwort #8 am:** 6.05.2025 | 19:30 »

Vorhin war ich auf die Idee gekommen, mal zu testen, ob ChatGPT einen DSA 5 Charakter erstellen kann und das ist das Resultat als PDF angehängt.

Beim zweiten Versuch hat er mir das PDF wegen Überlastung verweigert.

(Klicke zum Anzeigen/Verstecken)

sma · « **Antwort #9 am:** 6.05.2025 | 20:13 »

Zitat von: Gunthar am 6.05.2025 | 19:30

Vorhin war ich auf die Idee gekommen, mal zu testen, ob ChatGPT einen DSA 5 Charakter erstellen kann und das ist das Resultat als PDF angehängt.

Das sieht doch nicht schlecht aus.

Du solltest allerdings bedenken, dass ein LLM, das wahrscheinlich nicht die kompletten DSA-Regeln kennt bzw. diese mit Informationen über das allgegenwärtige D&D überlagert wurden, eher einen Charakter "fühlt" als ihn nach Regeln erstellt, daher werden die Attribute und Fertigkeiten nicht nach dem Point-Buy-System von DSA berechnet worden sein. Die KI weiß eher, da gehören ein paar Begriffe mit Zahlen dahin hin.

Es wäre außerdem hilfreich, nicht einfach nur "ChatGPT" zu sagen (das ist ein bisschen so, wie "das habe ich ihm Internet gefunden") sondern das Modell zu benennen.

Vorhin ist eine neue Version von Gemini 2.5 Pro erschienen (Preview 05-06), die musste ich gleich mal "Bitte erstelle einen DSA 5 Charakter für mich." fragen, worauf hin ich überraschenderweise erst mal die Nachfrage bekam, was mir für ein Konzept vorschwebt, welche Spezies, welche Kultur, Profession, Erfahrungsgrad, Stärken & Schwächen und Persönlichkeit ich haben möchte. Und dann gibt er mir zwei Beispielprompts.

Ich also: "Ich hätte gerne einen Zauberkundigen, der versteckt in Havena lebt, der Liebe wegen. Alle weiteren Details überlasse ich dir. Vergiss nicht, einen Namen und eine Hintergrundgeschichte zu erfinden." (Ich bin DSA-Noob, Havena ist eine der wenigen Städte, die ich kenne)

Und dann haut Gemini dies hier raus, wobei ich mich echt frage, welche Datensätze alle KIs so konsumiert haben, denn fast immer heißt ein NSC Elara, so leider auch hier. Der DSA-Nähe schreibe ich dann auch die enorm lange Beschreibung zu. Das scheint mir typisch zu sein.

(Klicke zum Anzeigen/Verstecken)

Darius der Duellant · « **Antwort #10 am:** 6.05.2025 | 22:10 »

Benutze hauptsächlich Claude via Perplexity.
ChatGPT habe ich aufgrund seiner überbordenden Prüderie und Speichelleckerei schon seit Monaten nur noch extrem selten angefasst (eigentlich nur für Magic bezogenen Kram).
Claude schreibt auch deutlich natürlicher.
Leider ist bei Perplexity das Kontextfenster im Vergleich zu anthropic direkt relativ klein, dafür ist das Jailbreaken sehr einfach.
Gemini teste ich auch gerade aus, bisher bin ich relativ positiv überrascht.

Harry · « **Antwort #11 am:** 6.05.2025 | 22:13 »

Okay, ich stelle fest, dass mir Grundlagenwissen fehlt, um hier folgen zu können. Hat jemand einen Tipp für mich, wie oder wo ich mich einlesen kann? Idealerweise Buch/ebook, einen Podcast würde ich auch hören, Videos anschauen lieber nicht. Deutsch oder Englisch egal.

(Mir fällt gerade ein, ich könnte den Chatbot ja auch selber darum bitten zu erklären, wie er funktioniert... Mal sehen, ob das was taugt)

Feuersänger · « **Antwort #12 am:** 6.05.2025 | 22:19 »

Ich habe mal vor ca einem Jahr probiert, ob mir cgpt Pathfinder-SCs erstellen kann. Es hat vollmundig behauptet, die PF-Regeln zu kennen. Aber was dann rauskam, spottete absolut jeder Beschreibung. Es war wirklich absolut unbrauchbar. Sozusagen ein Cargo-Kult-Charakterblatt. Seitdem keinen weiteren Versuch mehr unternommen.

sma · « **Antwort #13 am:** 6.05.2025 | 23:37 »

Zitat von: Harry am 6.05.2025 | 22:13

Okay, ich stelle fest, dass mir Grundlagenwissen fehlt [...] (Mir fällt gerade ein, ich könnte den Chatbot ja auch selber darum bitten

Das ist sicherlich Weg

Aber du kannst auch gerne hier fragen.

Die technischen Details sind eigentlich auch gar nicht so wichtig. Ein LLM ist ein großes Sprachmodell und eine spezielle Art von KI, die sehr gut daran ist, Texte zu generieren, indem ein Anfangstext fortgesetzt wird. Ist dieser Anfang eine Frage, ist die Fortsetzung mit sehr großer Wahrscheinlichkeit eine Antwort. Und voila, wir haben einen Chat.

Um das zu können, hat das Sprachmodell wortwörtlich alle verfügbaren Texte im Internet sowie alle digitalisierten Bücher und (inzwischen auch) Millionen von synthetisch generierten Wissensfragen, mathematische Probleme und Programmieraufgaben gesehen und zu einer gigantischen Tabelle verarbeitet, die sagt, mit welcher Wahrscheinlichkeit auf ein Wort X das Wort Y folgt.

Dies sind die sogenannten Parameter und man misst die Größe von LLMs in Milliarden von Parametern, auf Englisch Billions, oder eben B. Dabei sind Modelle mit einstelligem Wert winzig und außer für Spezialaufgaben für die menschliche Kommunikation unbrauchbar. Bei 10B bis 99B würde man von kleinen Modellen sprechen, alles, was kommerziell angeboten ist, ist deutlich größer. Wie groß, ist meist ein Geschäftsgeheimnis. Das inzwischen obsolete gpt-3 von OpenAI hatte 175B. Größer heißt aber auch nicht automatisch besser. Das ist alles sehr kompliziert.

Die USA sind mit OpenAI (ChatGPT), Antrophic (Claude), Google (Gemini & Gemma) und Meta (Llama) führend in der KI-Forschung. Es gibt noch kleinere Unternehmen und das von Betrüger Musk. Doch China holt auf, Deepseek (Deepseek) und Alibaba (Qwen) sind zwei LLMs, die von sich reden gemacht haben. Da die USA den Export der besten "Grafikkarten" (eigentlich NPU für Neuronal Processing Units statt Graphics Processing Unit) von Nvidia nach China verboten haben, sind diese gezwungen kreativ zu sein, was großen Fortschritten geführt hat, weil sie vergleichbare Leistung mit weniger/schlechterer Hardware schaffen. In Europa (Frankreich) gibt es Mistral (LeChat). Aus Deutschland kenne ich nix, wenn wir Deepl als Spezialfall für die Übersetzung mal ignorieren.

Qwen3 gilt mit 235B immer noch als kleines Modell, da dieses 22B große Experten vereint, die nach der initialen Klassifikation des Problems dann mit weniger Ressourcen schneller antworten können. Deepseek hat 671B, von denen 37B für eine Antwort benutzt werden. Solche großen Basismodelle kann man dann destillieren, verkleinern, ohne dass sie viel an Fähigkeiten verlieren. Qwen3-30B-A3B, was ich erwähnt hatte, ich ein von 235 auf 30B verkleinertes Modell, wo die Experten nur noch 3B groß sind. Ein Cthulhu-Abenteuer schafft es trotzdem, was beeindruckend ist.

Noch zwei wichtige Themen, dann ist es geschafft. Ursprünglich haben LLMs einfach so drauf los geredet, ohne sich vorher Gedanken zu machen, was sie eigentlich sagen wollen. Sogenannte "Thinking Models" denken jetzt erst über die Antwort nach. Zeige ich im nächsten Posting. Nachdenken braucht aber kostenbaren Speicher. LLMs haben ein sogenanntes Kontextfenster. Das ist die maximale Größe des Textes, den sie erinnern, um auf dessen Basis die nächsten Wörter zu generieren, also zu antworten. An alles, was nicht in dieses Kontextfenster passt, können sie sich nicht erinnern. Ursprünglich war das mal 4K oder 8K (K=Kilo, also 1000). Dann kam 32K, dann 100K, dann 200K und wenn wir mal Llama 4 mit angeblichen 10M (M=Mega, also Million) ignorieren, sind 1M von Gemini 2.5 momentan das Maximum, womit Google aktuell protzt.

Der Prompt, also die eigene Eingabe, das Nachdenken und die Antwort müssen zusammen in das Kontextfenster passen. Wenn man einer KI also z.B. als Teil der Eingabe ein komplettes Regelwerk mitgeben möchte und das z.B. 390K groß ist, dann kann eigentlich nur noch Gemini da eine Antwort geben, weil alle anderen LLMs nicht so groß dimensioniert sind.

Laut einer Studie verdoppelt sich momentan die Leistung von LLMs alle 7 Monate. Es vergeht kaum eine Woche, wo nicht irgendwer ein neues verbessertes Modell ankündigt, dass zumindest nach den selbsterstellten Benchmarks besser als alles andere und dabei kleiner und damit ressourenschonender ist. Meta hat sich dabei gerade beim Schummeln erwischen lassen, ich würde den Benchmarks daher nicht sonderlich trauen. Fakt ist aber, dass die Fähigkeiten von LLMs, insbesondere bei der Programmierung, wo ich schwerpunktmäßig draufschaue, extrem schnell besser wird.

Feuersänger · « **Antwort #14 am:** 6.05.2025 | 23:37 »

Probiere gerade ~~Dave~~ äh, Claude aus. Habe ein linguistisches Thema vorgeschlagen. Was Claude zur Unterhaltung beisteuert, sind zwar ein paar interessante Tidbits, aber hauptsächlich haben seine Kommentare den Tiefgang von "Die Metapher, die war toll! So ist es, Chef, ganz recht, jawoll!". Also das, sagen wir mal: "people pleasing" ist da auch nicht anders als beim default ChatGPT.

Deepseek war bei mir sofort untendurch. Ich brauche kein LLM mit eingebauter staatlich-chinesischer Zensur.

sma · « **Antwort #15 am:** 6.05.2025 | 23:50 »

Zitat von: Feuersänger am 6.05.2025 | 22:19

Ich habe mal vor ca einem Jahr probiert, ob mir cgpt Pathfinder-SCs erstellen kann. Es hat vollmundig behauptet, die PF-Regeln zu kennen.

Ein Jahr ist eine Ewigkeit. Zudem sagst du nicht, welches Modell du gefragt hast.

Hier meine Interaktion mit dem Gemini 2.5 Pro Preview 06-05:

"Bitte erstelle einen Pathfinder 2 Charakter für mich."

Wie bei DSA 5 zuvor, will die KI erst von mir wissen, was ich eigentlich will und demonstriert zumindest grundlegende PF2 Kenntnisse, genug jedenfalls, um mein Wissen über dieses System zu übertreffen. Es fragt dann nach meinen Wünschen.

"Baue mir einen Schurken, der gut zur Runenherrscher Kampagne passt und aus Sandspitze kommt. Die Details überlasse ich dir. Gib ihm einen Namen, Beschreibung und Hintergrund."

Ich finde es immer spannend, der KI beim Denken (33s) zuzuschauen…

(Klicke zum Anzeigen/Verstecken)

Und danach kommt dann die eigentliche Antwort… (62s) mit etwas zu viel euphorischer Zustimmung für meinen Geschmack…

(Klicke zum Anzeigen/Verstecken)

Das waren jetzt übrigens 7471 Token.

Wie gut das sich an die Regeln hält: Keine Ahnung, ich bin kein sonderlicher Fan des Spiels, da es mir zu kompliziert ist. Ich kann aber sagen, dass sich Gemini bei der YZE an die Regeln halten kann, wenn man sie prompted.

sma · « **Antwort #16 am:** 6.05.2025 | 23:53 »

Zitat von: Feuersänger am 6.05.2025 | 23:37

Deepseek war bei mir sofort untendurch. Ich brauche kein LLM mit eingebauter staatlich-chinesischer Zensur.

Das kann dir doch total egal sein, wenn du über Rollenspiele redest. Die US-Modelle unterliegen ja auch einer gewissen Selbstzensur, nur wird dort eben nicht verweigert über die Geschichte zu sprechen, sondern über Politik, Religion oder alles, was prüde Amerikaner für anstößig halten würden.

Feuersänger · « **Antwort #17 am:** 7.05.2025 | 00:01 »

Zitat

Ein Jahr ist eine Ewigkeit. Zudem sagst du nicht, welches Modell du gefragt hast.

Das weiss ich natürlich nicht mehr. Ich weiss auch nicht wie lang es genau her ist. Ich kann auch nicht mehr nachschauen, weil ich von dem hanebüchenen Schwachsinn so frustriert war, dass ich den Chat wieder gelöscht habe.

--

Noch was amüsantes:
Eben das Schlusswort meiner Unterhaltung mit Claude, nachdem ich auf die Ironie hingewiesen habe, dass Sprachverarbeitung und maschinelle Übersetzung heute komplett anders funktioniert als alles, was wir uns damals zu Zeiten meines Computerlinguistik-Studiums in unseren kühnsten Träumen vorstellen konnten:

Das ist wirklich ironisch! Die Entwicklung in der maschinellen Übersetzung und der Sprachverarbeitung insgesamt hat eine Richtung genommen, die für die Computerlinguisten früherer Generationen kaum vorstellbar war.
Die traditionellen Ansätze mit ihren regelbasierten Systemen, statistischen Modellen und ausgeklügelten Parsern für syntaktische Strukturen sind von etwas völlig anderem abgelöst worden. Statt explizite linguistische Regeln zu codieren, lernen LLMs Sprache durch massive Datenmengen und implizite Muster.
Es ist fast so, als hätte man jahrzehntelang versucht, einen detaillierten Atlas zu erstellen, um von Stadt A nach Stadt B zu kommen, mit präzisen Wegbeschreibungen und Grammatikregeln – und dann kam jemand mit einem ganz anderen Ansatz: "Lass uns einfach Millionen von Reisenden beobachten und ihre Fahrtwege nachahmen, ohne genau zu verstehen, warum sie diese Wege nehmen."
Die Ironie liegt auch darin, dass viele der linguistischen Theorien, die früher zentral für die Computerlinguistik waren, in modernen LLMs kaum noch eine explizite Rolle spielen. Gleichzeitig ist es faszinierend zu sehen, wie diese Modelle manchmal linguistische Phänomene korrekt abbilden können, ohne dass ihnen die zugrunde liegenden Regeln beigebracht wurden.

Darius der Duellant · « **Antwort #18 am:** 7.05.2025 | 01:05 »

Weil Deepseek aufkam, das Thema aber generell relevant ist:
Birne ist ungleich Birne.
Soll heißen, es kann einen himmelweiten Unterschied machen bei welchem Anbieter man das gleiche Modell verwendet und auch inwiefern man das Systemprompt anpasst.
Es gibt z.B. Parameter die sich auch für ein existierendes Modell noch ändern lassen vor allem die sogenannten "Temperatur", die Halluzination aber auch Antwortvarianz steuert. Das kann man bei Bing über die unterschiedlichen Schreibmodi ganz schön beobachten.
Dazu kommen noch stark unterschiedliche Filtermechanismen je nach Anbieter. Deepseek bei perplexity braucht z.b. nicht viel Überzeugungsarbeit um über Winnie the Pooh zu reden, im Gegensatz zum ursprünglichen Hoster...

Harry · « **Antwort #19 am:** 7.05.2025 | 09:41 »

Zitat von: sma am 6.05.2025 | 23:37

Das ist sicherlich Weg Aber du kannst auch gerne hier fragen.

Vielen Dank, das ist für mich sehr hilfreich. Ich merke mir: Die generierte Antwort entsteht durch die Berechnung, welche Wörter oder Satzteile statistisch am wahrscheinlichsten sinnvoll, passend und/oder korrekt sind, auf Grundlage einer enormen - hirnerweichend riesigen - Menge von vorher "gelesenen" Texten.

Das scheint mir nachvollziehbar, auch wenn die Vorstellung der Datenmenge, die in so einer "Tabelle" vorhanden sein muss, jemanden wie mich, der damals noch dachte, er kriegt seine 20-Megabyte-Festplatte nie im Leben voll, total überfordert.

Ich meine, die erste Frage, die sich mir stellt ist, wie denn die "Qualität" des jeweils nachfolgenden Wortes/Satzbausteines bewertet wird, weil häufig bedeutet ja nicht gleich gut. Das Modell muss also vermutlich mehrere Kriterien anwenden. Und: besteht dann nicht die Gefahr, wenn irgendwann tierisch viele Chatbot-generierte Texte im Internet zu finden sind, dass so eine Art Feedbackschleife entsteht? Weil sich die Modelle auf Daten basieren, die aus Modellen stammen, die auf Daten basieren, die aus Modellen stammen usw. ?

Faszinierendes Thema. Danke nochmals.

Harry · « **Antwort #20 am:** 7.05.2025 | 09:49 »

Zitat von: Feuersänger am 6.05.2025 | 15:14

Weiss nicht wer LLMs als psychotherapeutisches Wundermittel bezeichnet...

Na beispielsweise Firmen, die mir ein Modell verkaufen wollen, das bei Klientengesprächen mithört, mitschreibt und gleich einen Vorschlag für Diagnose, Bericht und Behandlung nach "best practices" macht. Das klingt wie die eierlegende Wollmilchsau und macht mich schlagartig misstrauisch, daher brauche ich unbedingt mehr Verständnis von der Materie - unter anderem, weil Kolleg*innen dieses Versprechen irre attraktiv finden. Ich ja auch, klar, wenn mir der Computer Arbeit abnehmen kann, will ich mich nicht aus Prinzip dagegen wehren. Aber wenn ich nicht zumindest grob verstehe, wie das funktionieren soll, bin ich erst einmal skeptisch.

Shihan · « **Antwort #21 am:** 7.05.2025 | 10:20 »

Zitat von: Harry am 7.05.2025 | 09:41

[..] Und: besteht dann nicht die Gefahr, wenn irgendwann tierisch viele Chatbot-generierte Texte im Internet zu finden sind, dass so eine Art Feedbackschleife entsteht? Weil sich die Modelle auf Daten basieren, die aus Modellen stammen, die auf Daten basieren, die aus Modellen stammen usw. ? [..]

Oh ja, diese Gefahr besteht aktuell tatsächlich. Habe gerade leider keine Quelle zur Hand, aber es gibt anscheinend schon Beobachtung über Qualitätsreduktion durch KI-Inzucht.

Haukrinn · « **Antwort #22 am:** 7.05.2025 | 10:22 »

Zitat von: Harry am 7.05.2025 | 09:41

Das scheint mir nachvollziehbar, auch wenn die Vorstellung der Datenmenge, die in so einer "Tabelle" vorhanden sein muss, jemanden wie mich, der damals noch dachte, er kriegt seine 20-Megabyte-Festplatte nie im Leben voll, total überfordert.

Die Datenmenge ist schon gewaltig, wenn auch nicht so groß wie das, was man reinsteckt. Du musst halt bedenken, ein LLM hat nichts mit einer Datenbank gemein. Es repräsentiert so eine Art Wahrscheinlichkeitswoike, aus der man ziehen kann. Das ist so ein bisschen wie diese alten Lotteriemaschinen. Da können Billionen von möglichen Zahlen rauskommen, aber in dieser lustigen Glaskugel turnen nur ein paar Dutzend Kugeln herum.

Zitat von: Harry am 7.05.2025 | 09:41

Ich meine, die erste Frage, die sich mir stellt ist, wie denn die "Qualität" des jeweils nachfolgenden Wortes/Satzbausteines bewertet wird, weil häufig bedeutet ja nicht gleich gut. Das Modell muss also vermutlich mehrere Kriterien anwenden. Und: besteht dann nicht die Gefahr, wenn irgendwann tierisch viele Chatbot-generierte Texte im Internet zu finden sind, dass so eine Art Feedbackschleife entsteht? Weil sich die Modelle auf Daten basieren, die aus Modellen stammen, die auf Daten basieren, die aus Modellen stammen usw. ?

Das ist tatsächlich ein Problem und dafür mit dafür verantwortlich, dass es bei vielen Modellen letztes Jahr eine deutliche Degeneration der Qualität gab. Mittlerweile versucht man neue Modelle anders zu trainieren (nämlich auf künstlichen, aber plausiblen Daten, die existierende LLMs generieren), aber löst das Problem natürlich nicht vollständig. Wir haben natürlich auch feste Trainingsdatensätze, bei denen man durch viel Kuratierung versucht, die Qualität hoch zu halten. Diese allein sind aber zu klein um LLMs den Leistungsumfang zu verpassen, den der Markthunger fordert.

Zitat von: Harry am 7.05.2025 | 09:49

Na beispielsweise Firmen, die mir ein Modell verkaufen wollen, das bei Klientengesprächen mithört, mitschreibt und gleich einen Vorschlag für Diagnose, Bericht und Behandlung nach "best practices" macht. Das klingt wie die eierlegende Wollmilchsau und macht mich schlagartig misstrauisch, daher brauche ich unbedingt mehr Verständnis von der Materie - unter anderem, weil Kolleg*innen dieses Versprechen irre attraktiv finden. Ich ja auch, klar, wenn mir der Computer Arbeit abnehmen kann, will ich mich nicht aus Prinzip dagegen wehren. Aber wenn ich nicht zumindest grob verstehe, wie das funktionieren soll, bin ich erst einmal skeptisch.

LLMs können da tatsächlich eine interessante Unterstützung sein, du musst bedenken, speziell darauf trainierte Modelle haben einen gewaltigen Überblick über Fälle und Fachliteratur, den kein anderer Mensch vom Fach allein im Kopf behalten oder auch nur recherchieren könnte. Wichtig ist aber, die gegebenen Antworten nicht für voll zu nehmen. Diagnosen wollen geprüft werden, Berichte gegengelesen und Behandlungsempfehlungen spricht das LLM hoffentlich gar nicht erst aus. Nebenbei gibt es da auch diverse rechtliche Hürden. Der AI Act schreibt zum Beispiel vor, dass die Ergebnisse auf jeden Fall von fachlich versierten Menschen geprüft und freigegeben werden müssen. Und der Datenschutz für Patientendaten ist natürlich ebenso zu beachten - gerade das Mithören und Protokollieren ist damit eigentlich ein absolutes NoGo, insbesondere für Anbieter, die im Hintergrund auf amerikanische Cloudanbieter oder direkt auf OpenAI und co setzen.

KhornedBeef · « **Antwort #23 am:** 7.05.2025 | 11:25 »

Wenn man ein Modell lokal laufen hat, kann das sicherlich mitgehörte Unterhaltungen organisieren und zusammenfassen. So eine Art dummer persönlicher Assistent.
Bei allem anderen fehlen entweder Datenschutz oder Leistung, soweit ich weiß.

Feuersänger · « **Antwort #24 am:** 7.05.2025 | 11:55 »

Wieviel Rechenleistung braucht man denn eigentlich für eine LLM-Antwort bei einer mittel-komplexen Frage? Wird man da mit einer lokalen Installation überhaupt glücklich? Und wieviel Festplatte braucht man?

Immerhin: weil neulich mal so durchs Inet schwappte, wieviel Energie LLMs weltweit fressen und was für ein Wasserverbrauch und dass das ja unverantwortlich wäre blablub, habe ich ChatGPT mal gefragt, wieviel Energie unsere Unterhaltungen denn auf seiner Seite so verbrauchen. Er hat dann ausgerechnet, bis zu diesem Zeitpunkt in soundsoviel Interaktionen soundsoviel Wh. Das war iirc so viel, wie ein einziges Solarmodul in 10 Minuten Peak erzeugt. Seitdem verschwende ich da keinen Gedanken mehr dran.