25% Rabatt: 500 Credits für nur $15
Back to blog
AI Video5 min read

Text-zu-Video-KI: Wie die Technologie wirklich funktioniert

Text-zu-Video-KI: Wie die Technologie wirklich funktioniert

Text-zu-Video-KI nimmt eine geschriebene Beschreibung und generiert einen passenden Videoclip. Die Technologie baut auf denselben Grundlagen wie die Bildgenerierung auf, fügt aber die Zeitdimension hinzu, was die Videogenerierung deutlich schwieriger macht.

Wie Text-zu-Video-Modelle funktionieren

Die Kernarchitektur ist der Diffusion Transformer (DiT). Statt ein 2D-Bild zu entrauschen, wird ein 3D-Volumen entrauscht, das alle Frames gleichzeitig darstellt. Der Textprompt wird codiert und leitet den Entrauschungsprozess.

Warum Video schwieriger ist als Bilder

Ein HD-Bild hat etwa 2 Millionen Pixel. Ein 5-Sekunden-HD-Video bei 30 fps hat etwa 300 Millionen. Neben den Rechenkosten erfordert Video das Verständnis von Physik, Bewegung und Kausalzusammenhängen über die Zeit. Aktuelle Modelle generieren Clips bis 15 Sekunden bei bis zu 2K Auflösung.

Related Articles