Tanelorn.net
Pen & Paper - Rollenspiel => Pen & Paper - Allgemein => Thema gestartet von: Haukrinn am 10.06.2024 | 18:29
-
Hallo zusammen,
mir kam heute die Idee mal die Abenteurergruppen unser Runden von KI rendern zu lassen. Leider waren die Versuche mit Stablediffusion und Nightcafe (mit verschiedenen Renderern) recht verhalten. Dall-E (GPT 4o) steht noch auf der Liste, Midjourney traue ich nicht, das fällt raus.
Hat jemand von euch schon mal ähnliches versucht?
Ich hatte bei den bisherigen Gehversuchen (neben der allgemeinen Qualität, die notwendigen längeren Prompts scheinen da viele Generatoren zu verwirren) vor allem das Problem, dass die doch recht unterschiedlichen Charaktere ziemlich stilistisch ziemlich inkonsistent wirkten. Da passte nichts so richtig zusammen (also optisch, dass so Abenteurergruppen nicht zusammen passen ist ja normal ~;D). Über Tipps und Empfehlungen bzgl. weiterer Generatoren würde ich mich sehr freuen. :)
-
Wir haben da einen Sammelthread (in Feder&Pinsel - Bilder): Bilder erzeugen mit KI-Generatoren: Ergebnisse, Prompts, Technik (https://www.tanelorn.net/index.php/topic,127872.0.html).
Konkret zu Abenteurergruppen habe ich noch nicht so viel gesehen (und auch selber nicht versucht), aber da sind normalerweise ein paar Leute unterwegs, die vielleicht gute Tipps geben können.
-
Alternativ bietet HeroForge an, die Minis zu Gruppenbildern zusammenzustellen.
Das ist dann auch noch kostenfrei. (Es kostet erst Geld, wenn Du die einzelnen Figuren als ausgedruckte Figur bzw. Datei haben willst)
-
Bis zu zwei Figuren klappt mit DallE (wenn man mit den Systemischen Einschränkungen leben kann) ganz gut, mehr habe ich noch nicht getestet.
-
Keine Erfahrung. Mein Ansatz wäre StableDiffusion mit nem style lora und viel inpainting.
-
Bei Artflow konnte man "Charaktere" bauen, die dann bei jedem Bild (mehr oder weniger) wiedererkennbar waren. Allerdings wurde da vor ein paar Tagen was um-/abgestellt und ich hab noch nicht nachgesehen, wie bzw. ob überhaupt es aktuell gehandhabt wird. Mit dem alten System hätte ich versucht, erst die Charaktere einzeln zu bauen und dann alle zusammen in einem Bild generieren zu lassen. Alternativ würde ich wohl versuchen das manuell nachzusgtellen. Sprich, erst einzelne Charakter (möglichst ohne Hintergrund) generieren, dann einen Hintergrund und die Figuren da per Bildbearbeitung rein kopieren.
-
Midjourney kann konsistente Charaktere - zumindest gibt es auf YT mehrere Videos, die erklären, wie man das macht. Hab mich allerdings nie selber damit beschäftigt. Im Prinzip scheint es so zu funktionieren, dass man einen Prompt "speichert", der dann immer die selbe Figur ergibt, die man in verschiedene Szenen einsetzen kann.
-
Ich brauche ja keine verschiedenen Szenen. Meine Herausforderung (als KI-Mensch, aber völliger Designnoob) ist es, 4-6 völlig unterschiedliche Charaktere in ein Bild zu bekommen. Ne Truppe von sechs Büroangestellten, Postboten oder Rittern bekomme ich ja hin, aber sobald da größere Differenzen auftauchen, kommt nur noch murks raus.
-
Ich hab jezt im Midgard Forum einige Bilder gesehen welche die gleiche Figur zeigen in verschieden Posen, etc.
Vieleicht kann man, wenn man die figuren alle erstmal einzeln erstellt hat das "zusammenfügen".
....
könnte aber viel arbeit sein.
-
Ich denke, die deutlich einfachere Variante dürfte sein, Einzelbilder der Helden in den gewünschten Posen erstellen zu lassen und diese dann mittels Grafiksoftware auszuschneiden und in ein gemeinsames Bild zu packen. Ist zwar auch aufwendig … aber zeitlich dürfte es kaum länger dauern als mit den Kis rumzuspielen, bis ein halbwegs gutes Bild dabei herauskommt. Beim zusammenschneiden ist das Ergebnis am Ende wenigstens sicher.
-
Wenn man die Figuren einzeln erstellt und zusammenfügt, vergrößert das doch nur das Problem, dass die Figuren wenig zusammenpassen?
Ich glaube, man muss bei der Erstellung der Figuren klarer stilistische Vorgaben machen. "Es soll aussehen, als wären alle Figuren einem Herr der Ringe Film entsprungen". Geht es dann nicht besser?
-
Kenne jetzt nur die Stäble Diffussion Möglichkeiten:
Ich würde Einzel Bilder erstellen. Die dann in einem Bildbearbeitungsprogramm positionieren. Und anschließend ein weiteres NeuronalesNetz Variationen davon erstellen lassen. Das gleicht dann auch gleich die Farbunterschiede (wenn sie nicht zu extrem sind) mit an. Inpaint für einzelne Charactere kann auch shcon helfen wenn der rest halbwegs passt und nur einzelne geändert werden müssen.
Alternativ könnte man versuchen ein gutes Bild irgend einer Abenteurer Gruppe zu finden, das halbwegs hinkommt.
Anschließend mit Unterstützung durch ControllNet ein neuesbild generieren lassen, das die Vorlage benutzt.
-
Wenn man die Figuren einzeln erstellt und zusammenfügt, vergrößert das doch nur das Problem, dass die Figuren wenig zusammenpassen?
Das verstehe ich nicht? In wie fern? Vom Stil her? Man kann in den üblichen KI Apps Stile festlegen und oft sogar Beispielbilder dazupacken.
-
Wenn man die Figuren einzeln erstellt und zusammenfügt, vergrößert das doch nur das Problem, dass die Figuren wenig zusammenpassen?
Wie war das?
Das größte Problem sitzt häufig zwischen Bildschirm und Tastatur... ~;D
Im Ernst: Kommt darauf an ...
1. Hat man ein Einzelbild, das einem gefällt?
(Muss nicht durch KI erstellt sein. Habe auch leider noch keine gesehen, die (zumindest zu meiner persönlichen Zufriedenheit )Gesichter mit gewünschtem Ausdruck zeichnen kann.
2. Hat man ein Programm das mit verschiedenen Bildebenen arbeitet (Um die Figuren passend zu positionieren, und sowohl der Größe und Körperhaltung nach anzupassen)
3. Kann man dieses Programm auch bedienen?
( Jemand der KI bemüht, möchte sich ja die Arbeit erleichtern. - Aber um es salopp auszudrücken: Die eigentliche Arbeit fängt damit eigentlich erst an.
Wenn es halbwegs nett aussehen soll)
Edit.
Man kann dann für jede Figur quasi ne neue Ebene wählen. Manchmal gehen auch zwei bis drei pro Ebene.
Diese Ebenen sind quasi durchsichtig, wie Folien die man übereinander legt.
Das einzig sichtbare ist die Figur ( die man allerdings erst von ihrem ursprünglichen Hintergrund befreien muss, sofern vorhanden)
Dinge , die nicht mit aufs "Gruppenfoto" sollen, kann man kaschieren, indem zum Beispiel eine andere Figur davor steht ( Also ne Ebene drüber liegt)
Auch muss man darauf achten, dass Figuren, die weiter hinten stehen etwas kleiner wirken, als vorne.
Füße und Schuhwerk müssen an den Boden des Hintergrundbildes angepasst werden, sonst wirkt es wie ein Fremdkörper und aufgeklebt.
Das Hintergrundbild sollte so gewählt werden, dass die Figuren in die Landschaft passen und umgekehrt.
(Selbst wenn man am Ende darauf verzichtet , und den Hintergrund weiß bzw. unsichtbar lässt , würde ich bei der Erstellung dazu raten, damit es am Ende halbwegs natürlich wirkt.)
-
Das verstehe ich nicht? In wie fern? Vom Stil her? Man kann in den üblichen KI Apps Stile festlegen und oft sogar Beispielbilder dazupacken.
Perspektive und Ausführung im Detail sind aber m.E. auch dann gern mal unterschiedlich. Das fällt dann schon auf, wenn man da mehrere Bilder zusammenmontiert.
-
Wenn man die Figuren einzeln erstellt und zusammenfügt, vergrößert das doch nur das Problem, dass die Figuren wenig zusammenpassen?
Wenn man klar, ausführliche Stilvorgaben gibt und ein paar mal probiert, geht es meiner Ansicht nach schon recht gut.
-
Perspektive und Ausführung im Detail sind aber m.E. auch dann gern mal unterschiedlich. Das fällt dann schon auf, wenn man da mehrere Bilder zusammenmontiert.
Hm … finde ich jetzt ehrlich gesagt nicht. Aber war am Ende ja auch nur ein Vorschlag. Gruppenbilder wo jede Figur detailliert im prompt beschrieben ist (und diese dann so auch aussieht), hab ich bis heute jedenfalls noch nicht hingekriegt.
-
Perspektive und Ausführung im Detail sind aber m.E. auch dann gern mal unterschiedlich. Das fällt dann schon auf, wenn man da mehrere Bilder zusammenmontiert.
Vielleicht hilft es, jeweils dieselbe Perspektive mit einem Prompt wie „mugshot“ zu erzwingen. 🤔
Aber das werden dann wohl keine Ganzkörperbilder, teils schwarz-weiß und mit bescheuertem Gesichtsausdruck… 😅
-
Ich habe es noch nicht ausprobiert, aber vielleicht funktioniert es in Automatic 1111 mittels inpaint? Immer einen SC erstellen und als Input-Bild für den nächsten nutzen. Dort die Pose für den neuen SC vorpinseln.
-
Ich brauche ja keine verschiedenen Szenen. Meine Herausforderung (als KI-Mensch, aber völliger Designnoob) ist es, 4-6 völlig unterschiedliche Charaktere in ein Bild zu bekommen. Ne Truppe von sechs Büroangestellten, Postboten oder Rittern bekomme ich ja hin, aber sobald da größere Differenzen auftauchen, kommt nur noch murks raus.
Ah, du meinst so etwas? Das ist ein WIP aus Fooocus.
(https://i.ibb.co/kxsZj2Y/2024-05-15-14-46-32-3093.png) (https://ibb.co/c1Sq0hz)
Das Grundgerüst ist eine Szenenbeschreibung, plus eine grobe Beschreibung der jeweiligen Figuren. ABER: AI kann nicht zählen, d.h. es ist völlig nutzlos, eine Anzahl an Personen anzugeben. Muss man einfach einige Ausgaben betrachten und auswählen.
Wenn das passt, kommen mittels Inpainting detaillierte Figuren an die Plätze der ursprünglichen. Ich hab das Bild dann auch mittels Outpainting schrittweise erweitert.
Nach und nach arbeite ich mit Inpainting weitere Details ein, oder bearbeite einzelne Elemente auch in Affinity (Hände mit zuvielen Fingern, z.B.).
Ja, das ist mühsam und langwierig. Wahrscheinlich wäre ein konventioneller (Digital-)Künstler sogar schneller.
-
Ja, sowas, danke für die Darlegung des Entstehungsprozesses. Sowas meinte ich. :)
-
Mit stablediffusion + RegionalPrompter lässt sich das Bild in mehrere Bereiche zerlegen, die unterschiedliche Prompts bekommen - ist aber manchmal etwas hakelig.
-
Wenn du doch dazu herrablassen kannst mmicrosoft edge zu installieren;
Copilot ist inzwischen ziemlich gut, auch bei unbedarften promts, wenns kein HD-Bild werden muss.
-
Meine Erfahrungen in dieser Richtung liefen darauf hinaus, dass KI (jedenfalls jede, die ich probiert habe) nicht in der Lage ist, mehrere Personen zu differenzieren. Vom Start weg kann die KI anscheinend nur bis 2 zählen. Also, zwei Personen gehen vielleicht noch so halbwegs, wenn dabei auch die Prompts simpel und überschaubar bleiben. Aber bei mehr wird es dann Jacke wie Hose und die KI zeichnet irgendeine zufällige Anzahl von Personen, vermischt munter die Beschreibungen der Individuen und macht Brei draus. Wenn man zB "Vier Personen insgesamt: ein Krieger in schwerer Rüstung, eine Waldläuferin in grüner Brigantine, ein Magier in blauen Roben und eine Schurkin in schwarzem Leder", bekommt man sowas wie 5-8 identisch aussehende Figuren in schwarzer Rüstung.
--> besser, man erzeugt jede Figur einzeln.
-
KI (also in diesem Fall Bild-KI) kann gar nicht zählen. Sie nimmt Wahrscheinlichkeiten an. ChatGPT kann in der neuesten Version rechnen, aber der basiert auch auf ganz anderen Modellen.
Wenn man also einzelnen Figuren beschreibt, kann es sein, dass die KI diese auch getrennt darstellt - oder Eigenschaften zusammenführt.
Deshalb eben meine Methode mit Inpainting. Bei Fooocus kann man explizit Dinge mittels Markierung und eigenem Prompt einfügen. Das ergibt zwar immer noch teilweise seltsame Dinge, aber zumindest kriegt man brauchbare Figuren, mit denen man dann weiterarbeiten kann.