Autor Thema: "I'm afraid I can't do that, Dave" - der LLM und KI Thread  (Gelesen 4694 mal)

0 Mitglieder und 2 Gäste betrachten dieses Thema.

Offline gilborn

  • Adventurer
  • ****
  • Beiträge: 874
  • Username: gilborn
Danke!

Ja, auf dem Trichter bin ich auch, die Gebühr kann man deutlich schlechter anlegen.

Ich werde einfach mal mit einem von den dreien anfangen...

Offline Feuersänger

  • Orcjäger
  • Moderator
  • Titan
  • *****
  • Deadly and Absurdly Handsome
  • Beiträge: 35.467
  • Geschlecht: Männlich
  • Username: Feuersänger
Gemini mischt sich ja schon immer ungefragt bei jeder Google-Suche ein, und rotzt dabei auch regelmäßig einen so unGLAUBlichen HANEbüchenen SCHWACHsinn raus, dass ich nie und nimmer auf die Idee käme, diesen Bot gezielt zu irgendetwas zu befragen, gleich 100.000mal nicht wenn es um Geld geht. Ich kann da auch gerne mal ein paar Screenshots raussuchen, die ich mir von Extra-super-sonder-bekloppten Antworten gemacht habe.

Hier Beweisstück A:
selbsterklärend -- ich suchte nach Anagrammen zu Farbwörtern. "Silber ist ein Anagramm von Silber" hat zwar Lisa Simpson / Jeremy Irons Vibes, ist aber ansonsten noch das Einzige auf der Liste was irgendeinen Sinn macht.


(okay, ein paar davon ergeben auf Englisch Sinn, zB blue / lube, aber die KI sollte da auch selber merken, dass sie sowas nicht übersetzen kann.)

Beweisstück B:


Das hier war ein bewusster Foil -- ich habe Google nach der Bedeutung einer "Redewendung" befragt, die es in Wahrheit gar nicht gibt. Statt dies zu erkennen ("Das ist in keiner mir bekannten Sprache eine Redewendung") oder ihr Unwissen zuzugeben, halluziniert sie halt einfach irgendwas.
Viel Spaß dabei, dir auf Basis dieser Expertise ein Haus zu kaufen.  >;D
« Letzte Änderung: Gestern um 19:16 von Feuersänger »
Der :T:-Sprachführer: Rollenspieler-Jargon

Zitat von: ErikErikson
Thor lootet nicht.

"I blame WotC for brainwashing us into thinking that +2 damage per attack is acceptable for a fighter, while wizards can get away with stopping time and gating in solars."

Kleine Rechtschreibhilfe: Galerie, Standard, tolerant, "seit bei Zeit", tot/Tod, Stegreif, Rückgrat

Offline gilborn

  • Adventurer
  • ****
  • Beiträge: 874
  • Username: gilborn
Na ja, wenn man Angebote vergleicht, kann man sich die Unterschiede anzeigen lassen, dann sollte man es natürlich verifizieren.
Dafür scheint es mir grundsätzlich ein geeinetes Werkzeug zu sein.

Ich lasse aber nicht die KI entscheiden, welches ich nehme...

Offline sma

  • Famous Hero
  • ******
  • a.k.a. eibaan
  • Beiträge: 2.015
  • Geschlecht: Männlich
  • Username: sma
Ich habe das Gefühl, Feuersänger, du willst KI einfach scheiße finden.

Gebe ich "Bitte zeig mir Anagramme für Farben." im KI-Modus von Google ein:

Die Klassiker:
Rot ➔ Tor (oder Ort)
Blau ➔ Laub
Braun ➔ Urban
Beige ➔ Biege (von biegen oder die Kurve)
Orange ➔ Organe (oder Onager, ein Wildesel/Wurfmaschine)
Magenta ➔ Magnate (Mehrzahl von Magnat)
Eisgrau ➔ Ausgeier (jemand, der etwas gierig betrachtet)
Rubin ➔ Unrib (seltenes Wort für "unreif" in regionalen Varianten)

sowie

Farbe ➔ Faber (lateinisch für „Schmied“ oder „Handwerker“, bekannt durch den Schreibwarenhersteller Faber-Castell)

Es sollte außerdem doch mittlerweile klar sein und niemanden verwundern, dass Halluzinationen normales Verhalten einer KI sind. Das sind KEINE Datenbanken. KIs sind NICHT-deterministische Assoziationsmaschinen. Deine Anklage ist ungefähr so schlüssig wie der Vorwurf "in meinem Brockhaus-Lexikon stehen gar nicht die aktuellen Nachrichten der Tagesschau, was für ein Scheißbuch".

Ich weiß auch nicht, was du mit deiner KI machst, weil du ja nie die Prompts nennt, aber wenn ich "Bitte erkläre mir das Sprichwort 'Juggling fish at full moon'" bei Gemini 3 Pro eingebe, kommt:

Das Sprichwort "Juggling fish at full moon" ist im Englischen oder Deutschen kein gängiges oder allgemein bekanntes Sprichwort. Es gibt keine direkten Entsprechungen oder Erklärungen dafür in den üblichen Sammlungen von Sprichwörtern und Redewendungen.

Danach diskutiert die KI noch was es bedeuten könnte, wenn es existieren würde und endet dann damit:

Im Wesentlichen würde es die Vorstellung vermitteln, etwas völlig Lächerliches und zum Scheitern Verurteiltes zu versuchen.

Und ich finde, dass beschreibt eigentlich recht gut, was du zu beweisen versuchst :)

PS: Auch GPT 5.2 Thinking erklärt mir, dass das Sprichwort nicht existiert, komm aber zu einer ähnlich vermuteten Bedeutung wie Gemini und weist mich anschließend darauf hin, dass es mit 水中捞月 / 海底捞月 ein ähnliches Sprichwort im Chinesischen gibt.


Texte zusammenzufassen ist übrigens ein anderes Anwendungsfeld als Q&A und das Risiko von Halluzinationen ist hier deutlich geringer, weil hier der Kontext größer ist. Ganz einfach (und ein bisschen falsch) ausgedrückt: Erstes ist eine Aufgabe des Weglassens, letztes eine Aufgabe des Hinzufügens. Und dabei sind Fehler wahrscheinlicher.
« Letzte Änderung: Gestern um 20:11 von sma »

Offline Feuersänger

  • Orcjäger
  • Moderator
  • Titan
  • *****
  • Deadly and Absurdly Handsome
  • Beiträge: 35.467
  • Geschlecht: Männlich
  • Username: Feuersänger
Zitat
Ich habe das Gefühl, Feuersänger, du willst KI einfach scheiße finden.

Was soll denn jetzt diese schwachsinnige Unterstellung?

Der Prompt im ersten Fall war einfach "Anagramme für Farben", viel einfacher als das geht es wohl nicht, im zweiten halt die Frage nach der Bedeutung der vermeintlichen Redewendung, einfach um zu sehen ob sie erkennt dass es das nicht gibt. Kann ich ja auch nix dafür, dass es bei mir nur diesen Müll ausgegeben hat -- besser als mit diesen Screenshots kann ich es dir auch nicht beweisen, dass Gemini das ausgespuckt hat.

Übrigens hat Gemini auch in der Vergangenheit schon (nicht mir, aber dokumentiert) empfohlen, Nudeln in Benzin zu kochen und ähnliche Späße.



ChatGPT ist da übrigens insgesamt ein gutes Stück besser; da habe ich auch schon solche Foils ausprobiert, und meistens hat es diese erkannt. Und ja, ich teste das bewusst und gezielt, damit ich einen Eindruck davon bekomme, wie sehr ich mich auf Antworten verlassen kann wenn ich es mal nicht schon im vorhinein selber weiß.

cGPT verwende ich recht viel, insbesondere bei der Entwicklung meines Redshift-Settings, und diese Aufgaben kommen seinen Fähigkeiten meist ganz gut entgegen -- da, wo es um eine Kombination aus enzyklopädischem Wissen und Rechenarbeit geht. _Manchmal_ weist es mich auch tatsächlich (meist so ganz non-chalant und en-passant) auf Dinge hin, die mir bis dahin nicht bewusst waren.
Manchmal kommt cGPT auch ins Schwimmen, ohne zuzugeben dass es sich nicht mehr richtig auskennt, aber mittlerweile habe ich da ein ganz gutes Gespür dafür entwickelt, anhand der Formulierungen, Syntax und anderen Hinweisen zu erkennen wenn es soweit ist.

P.S.: und natürlich lernt die KI auch mit der Zeit aus ihren Fehlern. Ich hatte zB dieses Farbending vor einigen Wochen gefragt und das Fisch jonglieren noch früher; in der Zwischenzeit wurden diese Anfragen vermutlich ausgewertet und die Ausgaben daraufhin verbessert. Wenn du heute die Benzin-Frage stellst kriegst du auch nicht mehr den Vorschlag, Spaghetti darin zu kochen.
« Letzte Änderung: Gestern um 20:21 von Feuersänger »
Der :T:-Sprachführer: Rollenspieler-Jargon

Zitat von: ErikErikson
Thor lootet nicht.

"I blame WotC for brainwashing us into thinking that +2 damage per attack is acceptable for a fighter, while wizards can get away with stopping time and gating in solars."

Kleine Rechtschreibhilfe: Galerie, Standard, tolerant, "seit bei Zeit", tot/Tod, Stegreif, Rückgrat

Offline postkarte

  • Experienced
  • ***
  • Beiträge: 287
  • Geschlecht: Männlich
  • Username: postkarte
ChatGPT ist da übrigens insgesamt ein gutes Stück besser; da habe ich auch schon solche Foils ausprobiert, und meistens hat es diese erkannt. Und ja, ich teste das bewusst und gezielt, damit ich einen Eindruck davon bekomme, wie sehr ich mich auf Antworten verlassen kann wenn ich es mal nicht schon im vorhinein selber weiß.
[...]
Manchmal kommt cGPT auch ins Schwimmen, ohne zuzugeben dass es sich nicht mehr richtig auskennt, aber mittlerweile habe ich da ein ganz gutes Gespür dafür entwickelt, anhand der Formulierungen, Syntax und anderen Hinweisen zu erkennen wenn es soweit ist.
Du vermenschlichst die LLMs und unterstellst Dinge, die sie nicht können. Zum Beispiel "Verstehen" oder "Auskennen". Selbst die Enzyklopädie Analogie ist schwierig und nicht selten falsch, weil große LLMs zwar tatsächlich relativ viele fixe Bezüge in Form „gespeichert“ haben, also als komplett aufrufbare Fakten, aber man kann von außen nicht sehen, ob es abgerufene Fakten aus dem LLMs sind oder diese stochastisch sinnvoll ergänzt worden sind.

Wenn ich mir was von Dir zu Weihnachten wünschen darf: bitte schau Dir erst mal zum Beispiel dieses tolle Video an, das die grundlegende Technik ganz schön erklärt, bevor Du antwortest. https://www.youtube.com/watch?v=LPZh9BOjkQs

Zum Thema "Schwachsinnige Ergebnisse" und "Erinnerung". Alle großen LLMs mit Anmeldung bewahren einige Daten aus den bisherigen Gesprächen/Sitzungen auf und füttern die als Kontext mit in neue Gespräche. Wenn Du am Anfang immer bewusst Unsinniges in die Gespräche fütterst, verwirrt das im schlimmsten Fall auch noch folgende Gespräche/Sitzungen, außer Du stellst dieses Feature explizit aus.



Offline Feuersänger

  • Orcjäger
  • Moderator
  • Titan
  • *****
  • Deadly and Absurdly Handsome
  • Beiträge: 35.467
  • Geschlecht: Männlich
  • Username: Feuersänger
Kann das sein, dass du eine sehr literal minded person bist, dass du nicht in der Lage bist, bildliche Ausdrucksweise als solche zu erkennen?

Du kannst mir schon glauben, dass ich wenigstens in Grundzügen _weiß_ wie ein LLM funktioniert. Ich werde mich trotzdem nicht derart ausdrücken, dass "da wohl ein Parameter zu hoch gewichtet wurde". [und mal so nebenbei, in welchem Universum kann jemals bei "sauté garlic and onion in" ausgerechnet "gasoline" den Stich als wahrscheinlichste Fortsetzung machen?]
Und letztlich ist ja gerade der einzige und wahrhaftige SINN eines LLM, dass man sich in natürlicher Sprache mit ihm unterhalten kann und Gedanken so formulieren wie man es im Gespräch mit einem Menschen tun würde. An dieser Latte müssen sich die Dinger messen lassen, sonst kann man das Interface auch gleich wieder rigide machen.
Der :T:-Sprachführer: Rollenspieler-Jargon

Zitat von: ErikErikson
Thor lootet nicht.

"I blame WotC for brainwashing us into thinking that +2 damage per attack is acceptable for a fighter, while wizards can get away with stopping time and gating in solars."

Kleine Rechtschreibhilfe: Galerie, Standard, tolerant, "seit bei Zeit", tot/Tod, Stegreif, Rückgrat