25% de réduction : 500 crédits pour seulement 15 $
Back to blog
AI Video5 min read

L'IA texte vers vidéo : comment la technologie fonctionne vraiment

L'IA texte vers vidéo : comment la technologie fonctionne vraiment

L'IA texte vers vidéo prend une description écrite et génère un clip vidéo correspondant. La technologie repose sur les mêmes bases que la génération d'images, mais ajoute la dimension temporelle, ce qui rend la tâche nettement plus complexe.

Comment fonctionnent les modèles texte vers vidéo

L'architecture principale est le Diffusion Transformer (DiT). Au lieu de débruiter une image 2D, il débruite un volume 3D représentant tous les frames simultanément. Le prompt encodé guide le processus de débruitage.

Pourquoi la vidéo est plus difficile que l'image

Une image HD contient environ 2 millions de pixels. Une vidéo HD de 5 secondes à 30 fps en contient environ 300 millions. Au-delà du coût de calcul, la vidéo exige la compréhension de la physique et de la causalité dans le temps.

Related Articles