AI Video22. März 20265 min read

Text-zu-Video-KI: Wie die Technologie wirklich funktioniert

Text-zu-Video-KI nimmt eine geschriebene Beschreibung und generiert einen passenden Videoclip. Die Technologie baut auf denselben Grundlagen wie die Bildgenerierung auf, fügt aber die Zeitdimension hinzu, was die Videogenerierung deutlich schwieriger macht.

Wie Text-zu-Video-Modelle funktionieren

Die Kernarchitektur ist der Diffusion Transformer (DiT). Statt ein 2D-Bild zu entrauschen, wird ein 3D-Volumen entrauscht, das alle Frames gleichzeitig darstellt. Der Textprompt wird codiert und leitet den Entrauschungsprozess.

Warum Video schwieriger ist als Bilder

Ein HD-Bild hat etwa 2 Millionen Pixel. Ein 5-Sekunden-HD-Video bei 30 fps hat etwa 300 Millionen. Neben den Rechenkosten erfordert Video das Verständnis von Physik, Bewegung und Kausalzusammenhängen über die Zeit. Aktuelle Modelle generieren Clips bis 15 Sekunden bei bis zu 2K Auflösung.

Genera

Text-zu-Video-KI: Wie die Technologie wirklich funktioniert

Wie Text-zu-Video-Modelle funktionieren

Warum Video schwieriger ist als Bilder

Related Articles

Wie KI die Charakteranimation verändert

Die besten kostenlosen KI-Videogeneratoren, die einen Versuch wert sind

Seedance 2.0: ByteDances KI-Videomodell, das Hollywood in 72 Stunden erschütterte