Text-zu-Video-KI: Wie die Technologie wirklich funktioniert

Text-zu-Video-KI nimmt eine geschriebene Beschreibung und generiert einen passenden Videoclip. Die Technologie baut auf denselben Grundlagen wie die Bildgenerierung auf, fügt aber die Zeitdimension hinzu, was die Videogenerierung deutlich schwieriger macht.
Wie Text-zu-Video-Modelle funktionieren
Die Kernarchitektur ist der Diffusion Transformer (DiT). Statt ein 2D-Bild zu entrauschen, wird ein 3D-Volumen entrauscht, das alle Frames gleichzeitig darstellt. Der Textprompt wird codiert und leitet den Entrauschungsprozess.
Warum Video schwieriger ist als Bilder
Ein HD-Bild hat etwa 2 Millionen Pixel. Ein 5-Sekunden-HD-Video bei 30 fps hat etwa 300 Millionen. Neben den Rechenkosten erfordert Video das Verständnis von Physik, Bewegung und Kausalzusammenhängen über die Zeit. Aktuelle Modelle generieren Clips bis 15 Sekunden bei bis zu 2K Auflösung.


