Medien & Phantastik > Multimedia - Software & Betriebsysteme

"I'm afraid I can't do that, Dave" - der LLM und KI Thread

<< < (7/11) > >>

sma:
Absolut gesehen, verbrauchen LLMs viel Strom, aber wenn wir uns das leisten wollen, können wir das, weil es relativ gesehen immer noch wenig ist.

Lt. einer Studie liegen wir aktuell bei ~400 TWh pro Jahr für alle Rechenzentren, weltweit. Wie viel davon für KIs, insbesondere LLMs verbraucht ist, ist unklar, aber wenn wir mal von 5% ausgehen, wären das etwa 20TWh.

20 TWh schaffen allein die Windkraftwerke in Schleswig-Holstein und dabei sind noch nicht die mehreren TWh Verlust inbegriffen, weil niemand den Strom haben will und daher die Anlagen abgeschaltet werden müssen.

Der Straßenverkehr in Deutschland verschlingt das Äquivalent von ca. 600 TWh pro Jahr (Stand 2022), pro Tag also 1,6 TWh. Also 2 Wochen kein Auto fahren (inklusive Güterverkehr) und wir könnten als Deutsche weltweit die Nutzung von LLMs sponsoren.

Ach ja, Crypto-Bros sind Energieverschwender sondergleichen. Allein Bitcoins benötigen 100-150 TWh pro Jahr, und da ist dann auch egal, ob das grüne Energie ist oder nicht, denn statt mit der Ahnungslosigkeit der Masse zu spekulieren und dauf deren Kosten den eigenen Reichtum zu maximieren, könnte man den Strom auch sinnvolleren Projekten zu führen. Die wiederum sagen, hey, schaut auf die Gold-Industrie. Für die Goldgewinnung werden das Äquivalent von über 200 TWh ausgegeben.

---

Was den Betrieb zuhause angeht: Die "echten" Modelle kannst du eigentlich gar nicht betreiben. Meist werden diese erst einmal komprimiert, indem ausgenutzt wird, dass wir eine Zahl zwischen 0 und 1 mit weniger Zwischenschritten abbilden, üblicherweise nur 16. Das reduziert den Speicherbedarf auf 1/4 und ein 30B-Modell ist "nur" noch 15 GB groß. Für moderne Speichermedien ist das gar kein Problem. Du musst aber das Modell zwingend in den Hauptspeicher bekommen und willst dabei idealerweise eine GPU bzw. NPU und keine CPU darauf rumrechnen lassen. Will sagen, das muss in den Speicher deiner Grafikkarte passen. Oder du hast einen Apple Silicon Mac  oder so eine fancy AMD CPU/GPU Kombination, die sogenanntes universelles RAM hat, das dynamisch zwischen CPU und GPU aufgeteilt werden kann. Nicht so schnell wie dediziertes GPU-RAM, aber du hast davon wahrscheinlich mehr. Denn es reicht nicht, dass das Modell selbst in den Speicher passt, sondern das Kontextfenster muss auch noch rein und da weiß ich aus dem Stegreif nicht die Formel.

Ich kann nur sagen, dass ich mit einem 32 GB MacBookPro, wo dann vielleicht 10 GB oder so für Betriebssystem und Programme, die ich minimal brauche weg sind, ein 30B Modell gerade laden und mit zu kleinem Kontextfenster laufen lassen kann. Ich schaffe dabei 10 token/s. Ein 8K Kontextfenster zu füllen, dauert damit 13
Minuten. Man will was anderes machen, während man auf die Antwort wartet.

Kauf man sich den schnellsten und größten Mac mit 128 GB RAM und 80 GPUs oder so, kann man auch 100 token/s erreichen oder eben deutlich größere 70B Modelle ohne Quantisierung laden und immer noch okayish ausführen. Ihr müsst entscheiden, ob die dafür notwendigen 10.000 € dann noch als hausgebrauch zählen.

Windows-Jünger könnten sich eine oder besser 7 Grafikkarten für je 7000 € kaufen und haben dann ähnliche Ergebnisse. Konsumer-Grafikkarten haben leider relativ wenig RAM, sodass man mit kleinen quantisierten LLMs vorlieb nehmen muss.

Nvidia will diesen Monat noch einen KI-Rechner vorstellen, der ab 3000 € kostet, aber das gilt auch für das Mac Studio, es bleibt also abzuwarten, was dort ein 128 GB Modell kosten wird und wie viele GPU-Kerne es haben wird. Framework hat vor einigen Monaten ebenfalls eine interessanten Rechner mit "Ryzen™ AI Max" SoC vorgestellt, der mit 128 GB RAM (und 16 CPUs/40 GPUs) unter 2500€ kosten soll. Soll im Herbst ausgeliefert werden.

Wer nicht aus bestimmten Gründen sein Modell lokal betreiben will, muss schon etwas tiefer in die Tasche greifen und könnte für das Geld auch relativ lange ein Abo für ein großes Modell abschließen. Für 2500€ kann ich 8 Jahre lang Claude Pro nutzen.

PS: Während ich das hier geschrieben habe, habe ich GPT mit einem Deep Research beauftragt: Das veraltete GPT-4 hat 0,05 TWh im Training verschlungen, hat für 300 Mio User ca. 1 Mrd Anfragen täglich verarbeitet und dabei 0,11 TWh auf Jahr gerechnet verbraucht. Aktuell schätzt man 10% der Rechenzentrumsleistung für KI.

Ca. 40-50% des Stroms ist erneuerbar (je nachdem wo man Kernkraft zuordnet). Die USA sind dabei Umweltsünder mit nur wenigen % erneuerbarer Energie, allerdings kaufen die US-Unternehmen alle Ablassbriefe (PPAs).

PPS: Zum Wasserverbrauch: Da in die USA die Großrechenzentren in Wüstenregionen stehen (billiges Land, billiger Solarstrom, wenig Leute, die Ärger machen könnten) brauchen sie relativ viel Kühlwasser. Das GPT-3 (nicht 4) Training hat 700.000 L Kühlwasser benötigt und man schätzt, das 100 Prompts jeweils 1 L kosten. In Europa wird kaum wassergekühlt, weil das Klima gemäßigter ist und/oder die Rechenzentren dort stehen, wo es billige Wasserkraft gibt. In China, schätzt man, wäre der Wasserbedarf 3x so groß wie in den USA.

Und man kann natürlich auch Elon Musk heißen und auf die Umwelt scheißen und sein Rechenzentrum mit illegalen Dieselaggregaten betreiben, weil dort, wo man gerne bauen wollte, nicht genug Strom da ist. Daher auch aus diesem Grund: Finger weg von Grok.

Gunthar:
Vorhin 2 Bilder in ChatGPT in Auftrag gegeben und es dauert wesentlich länger als bei Bing-Creator ohne Credits, bis die Bilder da sind.

sma:
Ein kleines Experiment.

Ich zeige meine Prompts. Das Endergebnis ist angefügt.

Erstelle ein kurzes aber vollständiges Rollenspielbuch mit Regeln in der Tradition von PbtA. Setting sind die späten 1970er bzw. frühen 1980er Jahre. Man spielt Gründer:innen im Silicon Valley, allerdings an einem fiktiven Ort mit fiktiven Firmen. Bitte erfinde 7 passende Playbooks. Erfinde Subsysteme, die die wichtigen Aspekte des Settings simulieren und einen spannenden Grund bilden, dass ganze überhaupt spielen zu wollen. Erfinde schließlich als Teil des Buchs auch Tabellen für Zufallsereignisse, Gegner und Verbündete, und eine Handvoll Abenteuerideen.

Und Gemini 2.5 Pro Preview 06-05 erstellt…

Danke. Sehr gut. Bitte erweitere die Zufallsereignisse-Tabelle auf 36 Einträge für einen W66 Wurf. Außerdem gefällt mir der Titel des Spiels nicht. Benutze keine "Foo & Bar" Form. Mache mir 6 neue Vorschläge für den Titel.

Und Gemini macht.

Mir gefällt "Garage Empire". Das nehmen wir. Bei den Abenteuer-Ideen habe ich allerdings noch keine Vorstellung, wie das im Spiel gehen soll. Bei PtbA gibt es ja Fronten und Clocks, um eine Bedrohung aufzubauen und sie langsam akuter werden zu lassen. So ein Konzept übertragen auf das Setting hätte ich gerne. Bitte erfinde da etwas!

Und Gemini erfindet "Venture Fronts: Der Weg zum Erfolg"

Das ist gut. Fasse bitte alles bisher gesagte zu einem kompletten konsistenten Rollenspielbuch zusammen und formatiere es als DIN A5 Buch mit modernem Layout für Typst.

Typst ist eine moderne Alternative zu TeX und ich war überrascht, dass Gemini das kennt. Leider nicht sonderlich gut und ich hatte zwei Fehler im Quelltext, die ich mit Hilfe der Dokumentation (ich kenne dessen Syntax überhaupt nicht) selbst fixen musste, weil Gemini immer wieder was anderes kaputt gemacht hat.

Außerdem habe ich die von Gemini vorgeschlagene Schrift "Linux Libertine" durch "IBM Plex Mono" ersetzt, weil ich eine Schreibmaschinenschrift passender fand. Und möglicherweise habe ich die Farbe der Überschriften geändert. So wirklich gut ist das Layout leider noch nicht, inbesondere wir schlecht umgebrochen.

Doch egal, ich habe jetzt ein 30 Seiten PDF, wo ich immer noch nicht überzeugt bin, dass man aus "Pirates of the Silicon Valley" ein Rollenspiel machen kann. Das nächste Mal probiere ich dann "Micro Men" :-)

Feuersänger:
Humor-Versuche von LLMs sind ja meist Glückssache, aber umso mehr schmeiße ich mich weg wenn ein Spruch wirklich mal zündet.

Heute beim Schwadronieren über mein SF-Setting. Kontext: Sprüche von Tiefraumfahrern (Spacer) über Lifterpiloten (die immer nur zwischen Boden und Orbit pendeln).

"Schießen sich aus der Atmosphäre wie Zäpfchen, und tun dann so, als wär's Raumfahrt.“

Gunthar:
Gestern mit Claude AI versucht, eine Dungeonmap zu generieren und habe nur ein schematisches Gekritzel erhalten.

Winfuture hat einen Artikel über halluzinierendes ChatGPT geschrieben.

Navigation

[0] Themen-Index

[#] Nächste Seite

[*] Vorherige Sete

Zur normalen Ansicht wechseln