Absolut gesehen, verbrauchen LLMs viel Strom, aber wenn wir uns das leisten wollen, können wir das, weil es relativ gesehen immer noch wenig ist.
Lt. einer Studie liegen wir aktuell bei ~400 TWh pro Jahr für alle Rechenzentren, weltweit. Wie viel davon für KIs, insbesondere LLMs verbraucht ist, ist unklar, aber wenn wir mal von 5% ausgehen, wären das etwa 20TWh.
20 TWh schaffen allein die Windkraftwerke in Schleswig-Holstein und dabei sind noch nicht die mehreren TWh Verlust inbegriffen, weil niemand den Strom haben will und daher die Anlagen abgeschaltet werden müssen.
Der Straßenverkehr in Deutschland verschlingt das Äquivalent von ca. 600 TWh pro Jahr (Stand 2022), pro Tag also 1,6 TWh. Also 2 Wochen kein Auto fahren (inklusive Güterverkehr) und wir könnten als Deutsche weltweit die Nutzung von LLMs sponsoren.
Ach ja, Crypto-Bros sind Energieverschwender sondergleichen. Allein Bitcoins benötigen 100-150 TWh pro Jahr, und da ist dann auch egal, ob das grüne Energie ist oder nicht, denn statt mit der Ahnungslosigkeit der Masse zu spekulieren und dauf deren Kosten den eigenen Reichtum zu maximieren, könnte man den Strom auch sinnvolleren Projekten zu führen. Die wiederum sagen, hey, schaut auf die Gold-Industrie. Für die Goldgewinnung werden das Äquivalent von über 200 TWh ausgegeben.
---
Was den Betrieb zuhause angeht: Die "echten" Modelle kannst du eigentlich gar nicht betreiben. Meist werden diese erst einmal komprimiert, indem ausgenutzt wird, dass wir eine Zahl zwischen 0 und 1 mit weniger Zwischenschritten abbilden, üblicherweise nur 16. Das reduziert den Speicherbedarf auf 1/4 und ein 30B-Modell ist "nur" noch 15 GB groß. Für moderne Speichermedien ist das gar kein Problem. Du musst aber das Modell zwingend in den Hauptspeicher bekommen und willst dabei idealerweise eine GPU bzw. NPU und keine CPU darauf rumrechnen lassen. Will sagen, das muss in den Speicher deiner Grafikkarte passen. Oder du hast einen Apple Silicon Mac oder so eine fancy AMD CPU/GPU Kombination, die sogenanntes universelles RAM hat, das dynamisch zwischen CPU und GPU aufgeteilt werden kann. Nicht so schnell wie dediziertes GPU-RAM, aber du hast davon wahrscheinlich mehr. Denn es reicht nicht, dass das Modell selbst in den Speicher passt, sondern das Kontextfenster muss auch noch rein und da weiß ich aus dem Stegreif nicht die Formel.
Ich kann nur sagen, dass ich mit einem 32 GB MacBookPro, wo dann vielleicht 10 GB oder so für Betriebssystem und Programme, die ich minimal brauche weg sind, ein 30B Modell gerade laden und mit zu kleinem Kontextfenster laufen lassen kann. Ich schaffe dabei 10 token/s. Ein 8K Kontextfenster zu füllen, dauert damit 13
Minuten. Man will was anderes machen, während man auf die Antwort wartet.
Kauf man sich den schnellsten und größten Mac mit 128 GB RAM und 80 GPUs oder so, kann man auch 100 token/s erreichen oder eben deutlich größere 70B Modelle ohne Quantisierung laden und immer noch okayish ausführen. Ihr müsst entscheiden, ob die dafür notwendigen 10.000 € dann noch als hausgebrauch zählen.
Windows-Jünger könnten sich eine oder besser 7 Grafikkarten für je 7000 € kaufen und haben dann ähnliche Ergebnisse. Konsumer-Grafikkarten haben leider relativ wenig RAM, sodass man mit kleinen quantisierten LLMs vorlieb nehmen muss.
Nvidia will diesen Monat noch einen KI-Rechner vorstellen, der ab 3000 € kostet, aber das gilt auch für das Mac Studio, es bleibt also abzuwarten, was dort ein 128 GB Modell kosten wird und wie viele GPU-Kerne es haben wird. Framework hat vor einigen Monaten ebenfalls eine interessanten Rechner mit "Ryzen™ AI Max" SoC vorgestellt, der mit 128 GB RAM (und 16 CPUs/40 GPUs) unter 2500€ kosten soll. Soll im Herbst ausgeliefert werden.
Wer nicht aus bestimmten Gründen sein Modell lokal betreiben will, muss schon etwas tiefer in die Tasche greifen und könnte für das Geld auch relativ lange ein Abo für ein großes Modell abschließen. Für 2500€ kann ich 8 Jahre lang Claude Pro nutzen.
PS: Während ich das hier geschrieben habe, habe ich GPT mit einem Deep Research beauftragt: Das veraltete GPT-4 hat 0,05 TWh im Training verschlungen, hat für 300 Mio User ca. 1 Mrd Anfragen täglich verarbeitet und dabei 0,11 TWh auf Jahr gerechnet verbraucht. Aktuell schätzt man 10% der Rechenzentrumsleistung für KI.
Ca. 40-50% des Stroms ist erneuerbar (je nachdem wo man Kernkraft zuordnet). Die USA sind dabei Umweltsünder mit nur wenigen % erneuerbarer Energie, allerdings kaufen die US-Unternehmen alle Ablassbriefe (PPAs).
PPS: Zum Wasserverbrauch: Da in die USA die Großrechenzentren in Wüstenregionen stehen (billiges Land, billiger Solarstrom, wenig Leute, die Ärger machen könnten) brauchen sie relativ viel Kühlwasser. Das GPT-3 (nicht 4) Training hat 700.000 L Kühlwasser benötigt und man schätzt, das 100 Prompts jeweils 1 L kosten. In Europa wird kaum wassergekühlt, weil das Klima gemäßigter ist und/oder die Rechenzentren dort stehen, wo es billige Wasserkraft gibt. In China, schätzt man, wäre der Wasserbedarf 3x so groß wie in den USA.
Und man kann natürlich auch Elon Musk heißen und auf die Umwelt scheißen und sein Rechenzentrum mit illegalen Dieselaggregaten betreiben, weil dort, wo man gerne bauen wollte, nicht genug Strom da ist. Daher auch aus diesem Grund: Finger weg von Grok.