Künstliche Intelligenz in der Bilderzeugung

Vorteile, Herausforderungen und ein Vergleich der führenden KI-Tools

von Christian Schmitt am 04.07.2024 - 05:55  

Christian Schmitt via DALL-E 3

Unser Symbolbild zeigt eine nicht reale Person, die KI-generierte Bilder am Bildschirm betrachtet.

Künstliche Intelligenz schickt sich an die Bilderzeugung zu revolutionieren und bietet bereits heute Gestaltern und Redakteuren neue kreative Möglichkeiten. Ob Midjourney, DALL-E 3 oder Stable Diffusion – jeder KI-Bildgenerator hat seine eigenen Stärken und Schwächen. Dieser Beitrag beleuchtet die Vorteile, Herausforderungen und Unterschiede der führenden KI-Tools und gibt Denkanstöße, wie sie effektiv und verantwortungsvoll eingesetzt werden können. Ein praktischer Teil erläutert Schritt für Schritt die Arbeit mit Midjourney und DALL-E 3.

Was ist Künstliche Intelligenz (KI)?

Unter KI versteht man die Nachahmung bzw. Simulation menschlicher Intelligenz durch Maschinen. Es sind insbesondere Computersysteme, die ausgefeilte Algorithmen, künstliche neuronale Netze und sehr große Datenmengen nutzen, um Muster zu erkennen und zu „lernen“. Ein häufiges Missverständnis: Die Maschinen treffen Entscheidungen nicht etwa aufgrund eigener Überlegungen, sondern indem sie ihre Datenbanken mit Wahrscheinlichkeitsrechnungen und statistischen Modellen kombinieren.

Durch diese Technologien können KI-Systeme scheinbar kreative Aufgaben wie die Bildgenerierung, Textproduktion und Musikkomposition übernehmen, wobei sie stets auf zuvor gelernte Muster und Strukturen zurückgreifen. Die Kreativität der KI basiert daher auf der Analyse und Rekombination bereits vorhandener Daten und eben nicht auf Intuition oder einem eigenständigen Bewusstsein.

Welche Vorteile bieten KI-Bildgeneratoren?

  • KI-Bildgeneratoren, wie Midjourney, DALL-E 3 oder Stable Diffusion ermöglichen es Redakteuren und Gestaltern, schnell Bilder zu erstellen, ohne aufwendig nach passenden Fotos suchen oder eigene Bilder produzieren zu müssen.
  • Die Fähigkeit der KI, eine breite Palette von Bildstilen und -themen zu generieren, eröffnet neue kreative Möglichkeiten. So können einzigartige und ansprechende Bilder entstehen, die recht gut auf den jeweiligen Einsatzzweck und dessen Anforderungen abgestimmt sind.
  • Der Einsatz von KI kann zudem kostengünstiger sein als der Ankauf von Bildern oder das Anheuern eines professionellen Fotografen oder Gestalters. Für kleinere Projekte oder gemeinnützige Organisationen, wie z.B. Kirchengemeinden, ist dies ein entscheidender Vorteil.
  • Moderne KI-Tools sind zunehmend benutzerfreundlich gestaltet. Auch Personen ohne umfassende technische Kenntnisse können diese effektiv nutzen.

Vergleich der drei wichtigsten KI-Bildgeneratoren

1. Bildqualität

Hinsichtlich der Bildqualität haben alle drei KI-Bildgeneratoren ihre eigenen Stärken. Midjourney überzeugt besonders durch seinen Fotorealismus. DALL-E 3 brilliert in der Verwendung verschiedener künstlerischer Stile und arbeitet etwas genauer, gerade bei komplexen und langen Prompts. Während der Fotorealismus bei DALL-E 3 etwas leidet und mitunter cartoonartig wirken kann, spielt die Maschine bei der Generierung von Text im Bild und der Darstellung komplexer Szenen ihre Überlegenheit aus. Allerdings liegt die erzielbare Bildauflösung bei DALL-E 3 unter zwei Megapixel und ist damit vergleichsweise limitiert. Stable Diffusion bietet ebenfalls beeindruckenden Fotorealismus und liefert gute Ergebnisse bei komplexen Anweisungen und Text. Es ist vielseitig und ermöglicht eine detaillierte Anpassung durch verschiedene Modelle.

2. Benutzerfreundlichkeit

In Bezug auf die Benutzerfreundlichkeit hebt sich DALL-E 3 deutlich ab. Es ist in ChatGPT integriert, was eine Nutzung ermöglicht, die einem natürlichen Gespräch nahe kommt. Auch die Integration in Bing und Microsofts Copilot erleichtert den Zugang. Midjourney erfordert mehr Einarbeitung und läuft über Discord, was anfangs etwas umständlich sein kann. Nach einer ersten Phase von 100 Bildern kann man jedoch (Stand Mai 2024) direkt auf der Midjourney-Website arbeiten. Stable Diffusion ist am komplexesten und erfordert technische Kenntnisse, um es lokal auf einem leistungsstarken Computer zu nutzen. Dies kann für technikaffine Nutzer ein Vorteil sein. Wer sich nicht näher mit der Technik befassen möchte, nutzt vorkonfigurierte, Cloud-basierte Dienste, wie ThinkDiffusion oder Supermachine.

3. Preis

Die Preisgestaltung variiert stark zwischen den drei Diensten. Midjourney bietet Abonnements von 12 bis 143 US-Dollar pro Monat, abhängig von der gewünschten Geschwindigkeit und Anzahl gleichzeitiger Arbeitsaufträge. DALL-E 3 kann kostenlos über Bing genutzt werden, aber die besten Ergebnisse erzielt man mit einem ChatGPT Plus-Abo für 24 US-Dollar pro Monat. Stable Diffusion ist bei lokaler Nutzung kostenlos, was es zur günstigsten Option macht, sofern man bereits leistungsfähige Hardware besitzt. Cloud-basierte Dienste wie ThinkDiffusion und DreamStudio sind kostenpflichtig, mit Preisen ab 23 US-Dollar pro Monat.

Die Preise sind hier inklusive Mehrwertsteuer und in US-Dollar angegeben. Die verschiedenen Anbieter rechnen meist in Dollar ab. Die Umrechnung in Euro erfolgt in der Regel über den Zahlungsdienstleister und unterliegt den tagesaktuellen Schwankungen des Wechselkurses.

Herausforderungen und Grenzen

Trotz der vielen Vorteile unterliegen auch KI-Bildgeneratoren bestimmten Limitationen:

  • Nicht alle generierten Bilder erfüllen automatisch die hohen Qualitätsstandards, die man möglicherweise erwartet. Beispielsweise scheitern KI-Bildgeneratoren noch sehr oft an kleinteiligen Bilddetails, wie menschliche Finger oder Zehen. Das muss man einfach wissen, um nicht enttäuscht zu werden.
  • Die Nutzung von KI zur Bildgenerierung wirft außerdem rechtliche Fragen auf, insbesondere hinsichtlich Urheberrechten und der Reproduktion von Bildern, die auf realen Kunstwerken basieren. Hier ist hohe Sensibilität vonnöten, um sicherzustellen, dass keine Rechte verletzt werden und die erzeugten Bilder fair und verantwortungsvoll genutzt werden. Hinzu kommt, dass KI-Systeme aus bestehenden Daten lernen. Dabei können unbeabsichtigt Vorurteile und Stereotypen übernommen werden. Es besteht das Risiko, dass generierte Bilder Vorurteile verstärken oder unpassende Darstellungen liefern. Daher ist es wichtig, die Ergebnisse kritisch zu hinterfragen und bei Bedarf zu korrigieren.
  • Obwohl KI-Tools benutzerfreundlicher werden, erfordert ihre effektive Nutzung ein gewisses Maß an technischem Verständnis und Übung. Anwender müssen sich mit den Funktionen und Möglichkeiten der Tools vertraut machen, um gute Ergebnisse zu erzielen. Gerade die genaue Formulierung der Prompts, das sind die Textanweisungen für die Maschine, ist eine Kunst für sich und erfordert anfangs viel Experimentierfreude und Geduld.
  • Auch sind bei weitem nicht alle Dinge möglich, die sich die menschliche Phantasie ausmalen kann. KI-Generatoren scheitern oft an der Aufgabe, genau die Bilder zu erstellen, die für sehr spezifische oder komplexe Themen benötigt werden. Hier ist ganz einfach Erfahrung nötig, um zu wissen, was möglich und was unmöglich ist.
  • In vielen Kontexten eignen sich reale Fotos einfach besser, insbesondere wenn es um sensible Themen geht, die ein hohes Maß an Glaubwürdigkeit erfordern. KI-generierte Bilder könnten in solchen Fällen als unpassend oder unecht wahrgenommen werden, was zulasten der Authentizität gehen kann.

Insgesamt erfordert die Nutzung von KI-Bildgeneratoren ein ausgewogenes Vorgehen, bei dem die Vorteile genutzt und die Herausforderungen bedacht werden. Setzt man sie sorgfältig und verantwortungsvoll ein, können KI-Tools jedoch eine wertvolle Ergänzung zur Bildgestaltung darstellen.

Christian Schmitt

Screenshot des Midjourney-eigenen Discord-Servers

Praktischer Teil

Anleitung: Wie man mit Midjourney Bilder generiert

Sie benötigen hierfür:
   • Discord-Konto
   • Zugang zum Discord Midjourney-Server
   • Midjourney-Abonnement (i.d.R. zahlungspflichtig)
   • gute Englischkenntnisse (Level B2 oder höher)
   • ggf. Bildbearbeitungssoftware (z.B. Photoshop, Affinity Photo, GIMP)
     
Schritt 1: Discord-Konto erstellen und Midjourney-Server beitreten

Falls Sie noch kein Discord-Konto haben, registrieren Sie sich auf discord.com und laden Sie die App herunter oder nutzen Sie die Webversion.
Um dem Midjourney Discord-Server beizutreten, gehen Sie auf die Midjourney-Website (midjourney.com) und klicken Sie auf „Sign up“. Dies führt Sie zum Midjourney Discord-Server. Klicken Sie auf „Akzeptieren“ oder „Beitreten“, um dem Server beizutreten.

Schritt 2: Midjourney abonnieren

Abonnement-Befehl eingeben: Geben Sie in einem der Midjourney-Discord-Kanäle den Befehl /subscribe ein. Sie erhalten einen Link „Manage Account“, der Sie zur Abonnement-Seite führt. Wählen Sie das passende Abonnement aus. Die Preise variieren, abhängig von der gewünschten Leistungsfähigkeit: Diese bemisst sich vor allem aus der Arbeitsgeschwindigkeit und der Anzahl der Aufträge, die gleichzeitig ausgeführt werden.
Geben Sie Ihre Zahlungsinformationen ein und schließen Sie den Abonnement-Prozess ab. Nach erfolgreicher Zahlung erhalten Sie Zugriff auf die Bildgenerierungsfunktionen von Midjourney.

Schritt 3: Erste Bilder generieren

Auf dem Midjourney-Server finden Sie mehrere Kanäle. Suchen Sie nach einem der #newbies-Kanäle, die für neue Benutzer vorgesehen sind. Geben Sie in den Chat des #newbies-Kanals einen Befehl ein, um ein Bild zu generieren. Der Befehl beginnt immer mit /imagine, gefolgt von Ihrer englischsprachigen Beschreibung des gewünschten Bildes. Beispiel: /imagine a small chapel on a mountain top in front of a mountain landscape at sunset. Nach Eingabe des Befehls generiert Midjourney das Bild. Dies dauert normalerweise ein bis zwei Minuten.

Christian Schmitt

Prompt: „A small chapel on a mountain top in front of a mountain landscape at sunset.” und das Ergebnis: Vier Varianten werden ausgeliefert.

Schritt 4: Bildvarianten auswählen und weiter bearbeiten

Unter den vier generierten Bildern sehen Sie kleine Schaltflächen mit den Bezeichnungen “U1”, “U2”, “U3”, “U4” und “V1”, “V2”, “V3”, “V4”. Mit “U” können Sie eine hochauflösende Version der jeweiligen Variante erstellen, während “V” weitere Variationen basierend auf der gewählten Variante generiert. Beispiel: Klicken Sie auf “U1”, um eine hochauflösende Version des ersten Bildes zu erhalten.
Falls das generierte Bild noch nicht Ihren Vorstellungen entspricht, können Sie weitere Prompts eingeben oder die Funktion “V” verwenden, um verschiedene Variationen zu erkunden.

Christian Schmitt

Hier wurden vier weitere Varianten mittels "V1" erzeugt. Das Bild zeigt eine vergrößerte Darstellung.

Christian Schmitt

Die erste Variante wurde mittels "U1" ausgewählt …

Christian Schmitt

… und durch Klick auf den Button "Upscale (Subtle)" vergrößert.

Schritt 5: Bild herunterladen und lokal bearbeiten

Sobald Sie mit dem Bild zufrieden sind, klicken Sie auf das Bild, um es zu vergrößern. Wenn Sie mit der Discord App arbeiten, wählen Sie „Im Browser öffnen“. Klicken Sie dann mit der rechten Maustaste auf das Bild im Browserfenster und wählen Sie „Bild speichern unter…“, um es auf Ihrem Computer zu speichern.
Öffnen Sie das heruntergeladene Bild in einem Grafikbearbeitungsprogramm wie Adobe Photoshop, GIMP oder einer anderen Anwendung Ihrer Wahl. Hier können Sie das Bild weiter verfeinern, Farben anpassen, Elemente hinzufügen oder entfernen und spezielle Effekte anwenden.

Tipps und Tricks für bessere Ergebnisse:

1. Detaillierte Prompts

Je präziser und detaillierter Ihre Beschreibung ist, desto genauer wird das generierte Bild Ihren Vorstellungen entsprechen. Beispiel: Anstatt “A chapel.” zu schreiben, verwenden Sie “A small chapel illuminated warmly from within. The chapel stands alone in the darkness, its modest structure highlighted by soft yellow lights. To the left, a bare tree is similarly lit, its branches glowing against the deep blue night sky filled with stars”.

2. Verwendung von Stil- und Themenangaben:

Fügen Sie spezifische Stil- oder Themenangaben hinzu, um das Aussehen des Bildes zu beeinflussen. Beispiel: “In the style of a 1950s vintage photography.” oder “The overall mood is peaceful and contemplative, evoking a sense of solitude and tranquility.”.

3. Iteratives Verbessern:

Nutzen Sie die Möglichkeit, verschiedene Varianten zu generieren und iterativ zu verbessern. Testen Sie verschiedene Prompts und Variationen, um bessere Ergebnisse zu erzielen.

4. Sprach-KI nutzen:

Wenn Sie unsicher sind, wie Sie ein Bild beschreiben sollen, noch dazu in englischer Sprache, können Sie ChatGPT nutzen, um vorhandene, ähnliche Bilder analysieren und beschreiben zu lassen. Auch könnten Sie ChatGPT anweisen, einen Prompt zu erstellen für Midjourney, indem Sie genau beschreiben, was auf dem Bild zu sehen sein soll. Beispiel: „Erstelle mir einen Prompt für Midjourney, der folgendes Bild erzeugt: Ein festlich gedeckter Tisch in einem Garten. Im Hintergrund sind viele Menschen zu sehen, die miteinander feiern, tanzen oder sprechen. Auf dem Tisch stehen Gläser, Getränke, Teller, Besteck und appetitlich arrangiertes Essen auf Platten und in Schüsseln. ChatGPT wird Ihnen einen englischsprachigen Prompt ausgeben, den Sie ggf. nach Ihren Bedürfnissen anpassen und als Prompt in Midjourney weiternutzen können. 

Christian Schmitt via Midjourney

Das finale Bild in der vergrößerten Version kann anschließend nach Bedarf mittels Bildbearbeitungsprogramm weiter bearbeitet werden.

Anleitung: Wie man über ChatGPT Bilder mit DALL-E 3 generiert

Sie benötigen hierfür:
   • ChatGPT Plus-Konto
   • ggf. Bildbearbeitungssoftware (z.B. Photoshop, Affinity Photo, GIMP)
     
Schritt 1: Zugang zu ChatGPT Plus

ChatGPT Plus abonnieren: Um die besten Ergebnisse mit DALL-E 3 zu erzielen, ist ein ChatGPT Plus-Abonnement erforderlich. Besuchen Sie die ChatGPT-Seite und melden Sie sich an oder registrieren Sie sich. Wählen Sie das ChatGPT Plus-Abonnement für 24 US-Dollar pro Monat aus und schließen Sie den Bezahlvorgang ab.

Schritt 2: Bilder generieren mit DALL-E 3

Nach dem Einloggen in ChatGPT stellen Sie nochmal sicher, dass Sie die richtige Version (ChatGPT Plus) verwenden, um Zugriff auf DALL-E 3 zu haben. Geben Sie eine detaillierte Beschreibung des gewünschten Bildes ein. Verwenden Sie den Befehl, um klar zu machen, dass Sie ein Bild generieren möchten. Beispiel: „Erstelle ein Bild von einem kleinen Bergkapelle auf einer gebirgigen Anhöhe, vor einer Berglandschaft bei Sonnenuntergang.“ Um gute Ergebnisse zu erzielen, geben Sie so viele Details wie möglich an, einschließlich Farben, Stile, Umgebungen und spezielle Merkmale. Beispiel: „Erstelle ein Bild, das vier rote Kerzen zeigt, die eng beieinander stehen. Drei Kerzen brennen bereits, und eine Hand hält ein Streichholz, um die vierte Kerze anzuzünden. Die Flammen leuchten hell in warmen Gelb- und Orangetönen und heben sich deutlich vom dunklen Hintergrund ab. Das Kerzenwachs ist leicht geschmolzen und zeigt ungleichmäßige Ränder und kleine Wachstropfen, die an den Seiten herunterlaufen. Der Fokus liegt vollständig auf den Kerzen und den Flammen, die eine warme und intime Atmosphäre schaffen.“

ChatGPT wird das Bild generieren und am Bildschirm präsentieren. Sie können weitere Prompts eingeben, um das Bild zu verfeinern oder verschiedene Variationen auszuprobieren.

Christian Schmitt

Anweisung per Chat: „Erstelle ein Bild von einem kleinen Bergkapelle auf einer gebirgigen Anhöhe, vor einer Berglandschaft bei Sonnenuntergang.” und das Ergebnis: Ein Bildvorschlag wird ausgeliefert.

Schritt 3: Bildvarianten und Feinabstimmung

Wenn das erste generierte Bild nicht genau Ihren Vorstellungen entspricht, können Sie ChatGPT bitten, weitere Variationen basierend auf dem ersten Bild oder neuen Anweisungen zu erstellen. Beispiel: „Erstelle eine Variation dieses Bildes mit weißen Kerzen.“. Fügen Sie zusätzliche Details hinzu, um das Bild weiter zu verfeinern. Beispiel: „Füge dem Bild einen Teller, gefüllt mit Walnüssen, Erdnüssen und Haselnüssen hinzu.“
Nutzen Sie bei Bedarf die Möglichkeit, verschiedene Varianten zu generieren und iterativ zu verbessern, um das bessere Ergebnisse zu erzielen.

Christian Schmitt

Zweiter Versuch: Wechsel der Perspektive (mit eher mäßigem Erfolg).

Christian Schmitt

Der Wunsch nach einem größeren Bild wurde mit einer Verbreiterung des Bildformats beantwortet. Die Auflösung von 1.792 x 1.024 ist bei DALL-E 3 das höchste der Gefühle.

Christian Schmitt

Erzeugung eines adventlichen Symbolbilds mithilfe einer ausführlichen Bildbeschreibung. Das Ergebnis stellt nicht ganz zufrieden.

Christian Schmitt

Neuer Versuch. Jetzt fehlt plötzlich die vierte Kerze auf dem Adventskranz.

Christian Schmitt

Der Hinweis auf das Fehlen der vierten Kerze wurde mit einem neuen Bild beantwortet. Das Bild ist schon ganz brauchbar, aber nicht perfekt. Der Dialog mit ChatGPT muss entsprechend fortgesetzt werden.

Schritt 4: Bild herunterladen und lokal bearbeiten

Sobald Sie mit dem Bild zufrieden sind, klicken Sie auf das Bild, um es zu vergrößern, und speichern Sie es dann auf Ihrem Computer. Öffnen Sie das heruntergeladene Bild in einem Grafikbearbeitungsprogramm wie Adobe Photoshop, GIMP oder einem anderen Tool Ihrer Wahl. Hier können Sie das Bild weiter verfeinern, Farben anpassen, Elemente hinzufügen oder entfernen und spezielle Effekte anwenden.

Tipps und Tricks für bessere Ergebnisse:

1. Detaillierte Prompts

Je präziser und detaillierter Ihre Beschreibung ist, desto genauer wird das generierte Bild Ihren Vorstellungen entsprechen.

2. Verwendung von Stil- und Themenangaben

Fügen Sie spezifische Stil- oder Themenangaben hinzu, um die Bildstimmung zu beeinflussen. Also beispielsweise: „im Stil des Expressionismus“, „warme Lichtstimmung“, „dominiert von roten Farben“

3. Iteratives Verbessern

Nutzen Sie die Möglichkeit, verschiedene Varianten generieren zu lassen und bestimmte  Varianten weiter zu verbessern. Testen Sie verschiedene Prompts und Variationen, um Ergebnisse zu erhalten, die genauer Ihren Vorstellungen entsprechen.

4. KI-Tools zur Bildskalierung nutzen

Wenn Ihnen das Ergebnis gefällt, aber die Bildauflösung zu niedrig ist, können Sie spezialisierte Tools nutzen, um die Bilder größer zu machen (engl.: "to scale" = Skalieren). Solche Dienste sind in der Regel kostenpflichtig. Anbieter sind beispielsweise: Image Enlarger oder Image Upscaler.

Vom Sinn und Unsinn ihres Einsatzes in Pfarrbriefen und Pfarrmagazinen
Diese Seite teilen