Blog 16

DALL-E 2
Gizem Baruk  I   10.07.2022

Die Innovation DALL-E 2 ist der neue, revolutionäre Text zu Bild Generator von OpenAI.
Dieser ermöglicht Nutzern, Bilder auf Basis von eingegebenen Text zu kreieren. Dafür verwendet der Generator die künstliche Intelligenz namens GPT-3, die in der Lage ist, (natural language Inputs) die Bedeutung von eingegebenen Wörtern zu verstehen und diese in Bildern wiederzugeben. Der Generator ermöglicht Nutzern, ihre eigenen kreativen Ideen in lebendige Bilder zu verwandeln. DALL-E 2 kann Bilder erstellen, die auf realistische Objekte basieren oder auch Text Inputs interpretieren, die nicht wirklich existieren. Möchtest du zum Beispiel eine realistische Szene generieren, dann ist dies für DALL-E 2 kein Problem. 

Wie funktioniert DALL-E 2?

Der Generator DALL-E 2 funktioniert auf Basis von natural language processing und künstlicher Intelligenz, um die Informationen aus einem Text in eine Vielzahl von Bildern umzuwandeln. Durch Deep Learning wird ihr beigebracht, welche Verbindungen sie herstellen muss, um das Endprodukt zu generieren. Für diesen Lernprozess nutzt sie die bereits existierende Technologie von CLIP (Constrastive Language-Image Pre-training). CLIP schafft es, passende Textbeschreibungen für ein Bild zu finden, basierend auf Text-Bild Paaren im Internet. Dalle-E 2 besteht aus folgenden zwei Stufen:

Im ersten Schritt erstellt man den Trainingsprozess der K.I. In diesem Fall wird CLIP genutzt, um Text-Bild Paare zu kodieren und einen sogenannten Latent Code herzustellen.
Anschließend wird der Text zu einem neuen Bild umgewandelt. Dort wird der Latent Code der Text-Bild Paare genommen und durch einen sogenannten Prior geschickt. 
Um Variationen des Bildes zu erstellen, welche mit dem Text übereinstimmen wird dann der Generator Decoder genutzt. Folgende schritte gibt es um eine neue Bildvariation zu erstellen:
1.    Zuerst wird der Text in den Text Kodierer eingeben. Dieser ist durch das CLIP-Modell darauf trainiert, das Text-Bild Paar zu verschlüsseln.
2.    Der Prior stellt die Verbindung zwischen dem, CLIP-Text und dem CLIP-Bild her, welches die Informationen aus dem Text widerspiegelt.
3.    Zuletzt wird der Decoder genutzt, um neue Bildvariationen zu generieren, welche visuell den eingegebenen Text repräsentieren. So lassen sich mit verschiedenen Texct Inputs eine Vielzahl an unterschiedlichen Bildern erstellen.



Share by: