Wie funktioniert DALL-E 2?
Der Generator DALL-E 2 funktioniert auf Basis von natural language processing und künstlicher Intelligenz, um die Informationen aus einem Text in eine Vielzahl von Bildern umzuwandeln. Durch Deep Learning wird ihr beigebracht, welche Verbindungen sie herstellen muss, um das Endprodukt zu generieren. Für diesen Lernprozess nutzt sie die bereits existierende Technologie von CLIP (Constrastive Language-Image Pre-training). CLIP schafft es, passende Textbeschreibungen für ein Bild zu finden, basierend auf Text-Bild Paaren im Internet. Dalle-E 2 besteht aus folgenden zwei Stufen:
Im ersten Schritt erstellt man den Trainingsprozess der K.I. In diesem Fall wird CLIP genutzt, um Text-Bild Paare zu kodieren und einen sogenannten Latent Code herzustellen.
Anschließend wird der Text zu einem neuen Bild umgewandelt. Dort wird der Latent Code der Text-Bild Paare genommen und durch einen sogenannten Prior geschickt.
Um Variationen des Bildes zu erstellen, welche mit dem Text übereinstimmen wird dann der Generator Decoder genutzt. Folgende schritte gibt es um eine neue Bildvariation zu erstellen:
1. Zuerst wird der Text in den Text Kodierer eingeben. Dieser ist durch das CLIP-Modell darauf trainiert, das Text-Bild Paar zu verschlüsseln.
2. Der Prior stellt die Verbindung zwischen dem, CLIP-Text und dem CLIP-Bild her, welches die Informationen aus dem Text widerspiegelt.
3. Zuletzt wird der Decoder genutzt, um neue Bildvariationen zu generieren, welche visuell den eingegebenen Text repräsentieren. So lassen sich mit verschiedenen Texct Inputs eine Vielzahl an unterschiedlichen Bildern erstellen.