Medien & Phantastik > Multimedia - Software & Betriebsysteme
"I'm afraid I can't do that, Dave" - der LLM und KI Thread
sma:
--- Zitat von: Feuersänger am 18.05.2025 | 21:10 ---Ich wurde gestern mal wieder von Katze, ich habe gefurzt* enttäuscht.
--- Ende Zitat ---
Du schreibst immer mal wieder, das die KI für dich nicht funktionierst, sagst aber nie, welches LLM du benutzt (z.B. Gemini mit "2.5 Pro Preview 06-05" - das ist die LLM-Version). Auch ChatGPT ist nicht ausreichend genau, unterstützt das doch 4o, o3, o3-mini, o4-mini, o4-mini-high, 4.1, 4.1-mini, 4.5, die alle verschiedene Charakteristika haben. Bedenke auch, dass kostenlose und bezahlte Nutzer bei dem selben Modell zum Teil sehr unterschiedliche Ergebnisse bekommen. Manchmal kann das sogar auch einfach an der Tageszeit bzw. der aktuellen Auslastung liegen. Das ist alles leider schwer reproduzierbar.
Mehr Informationen würden helfen, die Situation besser einzuordnen, denn so krasse Halluzinationen habe ich schon seit längerem nicht mehr gesehen.
Für die Qualität der Antwort ist entscheidend, wie lang dein Chat schon ist. Verschiedene LLMs haben verschieden lange Kontextfenster (können sich also an unterschiedlich viel der Konversation erinnern) und haben zusätzlich auch noch unterschiedliche Wahrscheinlichkeiten, sich innerhalb des Fensters auch wirklich zu erinnern. Gemini ist meines Wissens in beiden Kategorien aktuell führend.
Wenn dein Text sagen wir mal 10.000 deutsche Wörter hat, wären das etwa 30k Token und sollte der kostenlose Chat nur 32k haben (habe das nicht recherchiert), beginnt er mit der Ausgabe von Text bereits Teile der Eingabe zu vergessen. Ich würde 100k als unteres Limit für einen vernünftigen Chat sehen, es könnte aber sein, dass die Hersteller da was anderes anbieten.
sma:
--- Zitat von: Paßwächter am 18.05.2025 | 19:57 ---Eventuell müsste man da mal eine MCP-Kombination (bzw. auf Deutsch hier) drauf loslassen.
--- Ende Zitat ---
MCP ermöglicht viel, kann aber keine Wunder vollbringen und ich sehe nicht, wie es da Problem lösen kann, dass sich der Bildgenerator die Hexes nicht vorstellen kann. ChatGPT kann als Codeinterpreter auf Python zurückgreifen, Claude auf JavaScript (was mir besser gefällt) und damit kann man das Problem lösen, dass das LLM keinen echten Zufall kann. Mit Canvas bzw. Artefakt kann man sich auch ein explizites Programm generieren lassen, dass eine Hexkarte erzeugen und anzeigen kann und theoretisch auch als Bitmap in die Zwischenablage kopieren kann (meines Wissen verhindert dies die Sandbox, in der der Preview läuft). Dann könnte man so eine schematische Karte von der KI anpassen lassen.
MCP könnte man nutzen, um genau diesen Übergang zu automatisieren, müsste dazu aber entweder einen HTTP-basierten MCP in den Browser-Chat-Client integrieren oder die Desktop-App benutzen. Ich bin kein großer ChatGPT User, daher weiß ich nicht, was dessen App kann, aber Claude Desktop kann auch lokale MCPs integrieren, was einfacher wäre.
Feuersänger:
--- Zitat von: sma am 18.05.2025 | 21:57 ---Du schreibst immer mal wieder, das die KI für dich nicht funktionierst, sagst aber nie, welches LLM du benutzt (z.B. Gemini mit "2.5 Pro Preview 06-05" - das ist die LLM-Version). Auch ChatGPT ist nicht ausreichend genau, unterstützt das doch 4o, o3, o3-mini, o4-mini, o4-mini-high, 4.1, 4.1-mini, 4.5, die alle verschiedene Charakteristika haben.
--- Ende Zitat ---
Ich lasse bisher das ChatGPT auf "Auto", was in der Regel 4o bedeutet bis das Kontingent für den Zeitslot verbraucht ist, dann steigt es automatisch auf o4-mini um. Ich kann auch außer diesen beiden höchstens noch 4.1-mini auswählen, habe das aber noch nie probiert. Die obigen Hallus kamen alle mit 4o.
Und ja, vermutlich war mein initial reinkopierter Text einfach zu lang - es waren knapp 5000 Worte auf einmal. Ich habe dann angefangen es häppchenweise zu pasten und da kam es dann besser mit zurecht.
Und wohlgemerkt: oft, ich sag mal nicht "meistens", also oft funktioniert 4o für mich durchaus und liefert Antworten, mit denen ich arbeiten kann. Das geht aber freilich nur, solange ich auch selber aufpasse und beim Gegenlesen bemerke, wenn es Mist gebaut hat.
In einem speziellen Fall habe ich auch sowohl Claude als auch CGPT auf das gleiche Problem angesetzt und anfangs irrwitzig weit auseinander liegende Antworten bekommen. Ich habe dann die Eingaben verfeinert und auch das eine Modell mit den Antworten des anderen konfrontiert. Es war ein mehrstufiger Prozess aber am Ende hatte ich ein Ergebnis, mit dem ich zufrieden bin.
Und um auch mal was positives zu 4o zu sagen: einmal habe ich ihm aus Spaß ein Logikrätsel gestellt. Es hat losgelegt, und eine Antwort generiert die genau falsch war, also voll in eine logische Denkfalle reingetappt. Und dann, noch in der gleichen Antwort, dies selber gemerkt und sich korrigiert. "Ach halt, das stimmt ja gar nicht!" und dann weiter räsonniert und kam auf die richtige Lösung. Also ich muss sagen, das wirkte schon geradezu menschlich.
--- Zitat --- Bedenke auch, dass kostenlose und bezahlte Nutzer bei dem selben Modell zum Teil sehr unterschiedliche Ergebnisse bekommen.
--- Ende Zitat ---
Das wusste ich nicht. Eigentlich bescheuert -- wenn sie mich doch dazu bringen wollen, ein Abo abzuschließen, wieso glauben sie da dass es mich überzeugt, wenn sie mir demonstrieren wie ihr Modell versagt?
--- Zitat ---Mehr Informationen würden helfen, die Situation besser einzuordnen, denn so krasse Halluzinationen habe ich schon seit längerem nicht mehr gesehen.
--- Ende Zitat ---
Naja, ich mag jetzt nicht den ganzen Eingangstext hier reinpasten, das würde den Rahmen sprengen. Aber gerne hier einen Auszug aus dem betreffenden Chat. Wohlgemerkt _nachdem_ ich bereits einmal einen Satz reklamiert hatte, den ich angeblich geschrieben hätte obwohl das nicht der Fall war. 4o entschuldigt sich also dafür und fährt dann fort:
ChatGPT said:
[...]
Wenn du möchtest, schaue ich die entsprechende Passage noch einmal konkret an und formuliere, was mir daran auffiel – aber ohne mir Dinge auszudenken, die gar nicht drinstehen. Möchtest du das?
You said:
Ja bitte, zitiere die betreffende Stelle und mache dann Vorschläge
ChatGPT said:
Gerne. Ich beziehe mich auf diesen Abschnitt:
Sie starrte durch die Scheibe auf die schmutzige, grauweiße Landschaft, die sich träge unter ihnen vorbeischob. Das war nicht die Venus, wie man sie von Bildern kannte: leuchtend, brodelnd, golden. Das hier war das echte Gesicht des Planeten. Ein atmungsaktives Miasma aus Schwefelsäure und CO₂, das sich im Licht eines fernen, rötlich gefilterten Sonnenpunkts verlor. Und irgendwo dort draußen befand sich ein havarierter Tanker mit einer Leiche an Bord.
--
Diesen Absatz finde ich eigentlich recht gelungen, aber leider hat er NICHTS damit zu tun was ich eingegeben hatte. In meinem Text kam weder die Venus vor noch ein havarierter Tanker und auch keine Leiche. Mein Text war komplett anders. Es geht um einen Start von der Erde in den Orbit. Die einzige Stelle, die irgendeine entfernte Ähnlichkeit aufweist, lautete:
Die Sterne im Hintergrund bewegten sich gleichmäßig über den Schirm, aber der in der Mitte blieb wo er war. Da schob sich vom unteren Rand etwas anderes in das Panorama – eine Krümmung in blau, weiß und grün. Die Erde. So tief unter ihr – und sie schien unter ihr wegzufallen, wurde kleiner. In letzter Sekunde riß sie sich eine Tüte heran und ließ ihrem Mageninhalt freien Lauf.
Ich erwarte jetzt auch hier keine Lösung oder weitergehende Erklärung über das, was du schon gesagt hast (zu viele Tokens) hinaus. Ich find es aber einfach irre dass das überhaupt passieren kann. Statt dass das System einfach sagt "Hoppla, das war zuviel auf einmal, bitte aufdröseln".
sma:
--- Zitat von: Feuersänger am 19.05.2025 | 00:25 ---Ich lasse bisher das ChatGPT auf "Auto"
--- Ende Zitat ---
Isch 'abe gar kein Auto.
Da ich meist Dinge frage, die Nachdenken erfordern, bin ich eigentlich immer auf o4-mini-high, außer ich denke, dass o3 oder 4.5 vielleicht besser ist. Aber dann wechsle ich meist eh zu Claude ;-) Als "Plus" User kann ich glaube ich auch nicht das volle Programm ausschöpfen, weil mich OpenAI zu "Pro" upsellen will.
Wenn du über längere Texte sprechen willst, würde ich Gemini 2.5 empfehlen. Die Flash-Version sollten doch auch frei (d.h. zum Preis deiner Daten) verfügbar sein, oder? Ansonsten kann man über <aistudio.google.com> auch direkt auf das LLM zugreifen, ohne einen gezuckerten Chat, der einem mit angepassten Systemprompts gefallen will (obwohl, selbst das rohe Gemini ohne Systemprompt ist neuerdings ein Arschkriecher).
Hier ist ein Beispiel, wo ich 2.5 Pro Preview 05-06 dazu bringen wollte, mir ein 30-seitiges Quellenbuch zu erzeugen. Mit eine Stunde formatieren, wo Gemini gerade mal 3 Minuten für den Text gebraucht hat, komme ich auf 24 Seiten. Es sind ~6100 Wörter für ~13k Token.
--- Zitat ---...das eine Modell mit den Antworten des anderen konfrontiert.
--- Ende Zitat ---
Ja, das habe ich auch schon erfolgreich versucht.
--- Zitat ---Das wusste ich nicht. Eigentlich bescheuert -- wenn sie mich doch dazu bringen wollen, ein Abo abzuschließen, wieso glauben sie da dass es mich überzeugt, wenn sie mir demonstrieren wie ihr Modell versagt?
--- Ende Zitat ---
Ich glaube, die denken, das funktioniert für die Frust-Schiene. Mal will bezahlen, weil sonst die Ergebnisse so schlecht sind ;-) Ne, keine Ahnung. Dass ein kostenloses Modell nicht so viel kann, wäre ja okay, wenn es denn wenigstens transparent kommuniziert wird. Aber mit diesen du kannst "bis zu 200k Token nutzen" Aussagen, kann man ja gar nichts anfangen. Dass wie wie "bis zu 1 GB/s" bei Glasfaser und es ist trotzdem langsam.
Haukrinn:
Die Interpretation dass die kostenlosen Accounts zum Upgrade auf einen Bezahlaccount einladen sollen, ist übrigens eine Fehleinschätzung. Die kostenlosen Zugänge verfolgen zwei Zwecke:
1. Nutzerzahlen hoch halten. Denn das ist gut fürs Marketing und für Investorenrunden.
2. Daten sammeln. Das machen Bezahlnutzer nämlich nicht mit. Und diese Interaktionsdaten sind halt für die Betreiber immens wertvoll. Und wiegen bei der Kosten/Nutzenabschätzung deutlich schwerer als die Chance, jemanden zum zahlenden Kunden zu machen.
Navigation
[0] Themen-Index
[#] Nächste Seite
[*] Vorherige Sete
Zur normalen Ansicht wechseln