AI Video5 mars 20265 min read

Seedance 2.0 : le modèle vidéo IA de ByteDance qui a secoué Hollywood en 72 heures

Le 10 février 2026, ByteDance a publié Seedance 2.0 via son application Doubao en Chine et la plateforme créative Jimeng AI. En 72 heures, des clips générés par IA mettant en scène des acteurs hollywoodiens inondaient les réseaux sociaux, l'équipe juridique de Disney avait envoyé une mise en demeure, et SAG-AFTRA qualifiait le modèle d'"attaque contre tous les créateurs du monde." Voici ce que Seedance 2.0 fait réellement, pourquoi il a déclenché cette réaction, et ce qu'il révèle sur l'avenir de la génération vidéo par IA.

Ce que Seedance 2.0 peut faire

Seedance 2.0 repose sur une architecture Dual-Branch Diffusion Transformer (DiT) qui génère audio et vidéo simultanément. Contrairement aux modèles précédents qui produisent des clips muets nécessitant un travail audio séparé, Seedance 2.0 produit des vidéos entièrement sonorisées avec dialogues, musique et effets sonores synchronisés avec le contenu visuel.

Le modèle accepte jusqu'à 12 fichiers d'entrée à la fois : images, vidéos et audio. Les utilisateurs peuvent lui fournir une image de référence pour le style visuel, un clip vidéo pour le mouvement et le travail de caméra, et une piste audio pour guider le rythme. Le modèle synthétise l'ensemble en une sortie cohérente pouvant atteindre 15 secondes en résolution 2K.

Dans ces 15 secondes, le modèle peut produire plusieurs plans avec des coupes et transitions naturelles, de sorte qu'une seule génération ressemble à une séquence montée plutôt qu'à un clip continu. Il gère les zooms dolly, les changements de mise au point, les plans de suivi, les changements de point de vue et les mouvements fluides de caméra portée. Les interactions entre objets suivent une physique réaliste : les collisions ont du poids, le tissu se déchire naturellement, et les personnages se déplacent de façon physiquement crédible même dans les séquences d'action intense.

L'architecture sous-jacente

L'architecture Diffusion Transformer remplace le backbone U-Net traditionnellement utilisé dans les modèles de diffusion. Les transformers offrent une meilleure scalabilité et des mécanismes d'attention plus efficaces pour capturer les relations à longue portée dans les dimensions spatiales et temporelles. C'est ce qui permet au modèle de maintenir une apparence cohérente des personnages, un éclairage et une physique constants tout au long d'un clip, plutôt que de générer chaque image de manière semi-indépendante.

La conception à double branche signifie que l'audio et la vidéo sont générés en parallèle via des chemins de traitement liés mais distincts. C'est architecturalement différent des modèles qui génèrent d'abord la vidéo puis ajoutent l'audio en post-traitement. Le résultat est une synchronisation plus serrée : les mouvements des lèvres correspondent aux dialogues, les impacts s'alignent avec les effets sonores, et la musique suit le rythme visuel.

Les retombées à Hollywood

Quelques heures après le lancement, les réseaux sociaux étaient inondés de contenu généré par Seedance. Le clip qui a attiré le plus d'attention a été créé par le cinéaste irlandais Ruairi Robinson : un combat hyperréaliste sur un toit entre Tom Cruise et Brad Pitt, généré à partir d'un simple prompt textuel. Il était suffisamment réaliste pour tromper des spectateurs occasionnels.

D'autres clips ont rapidement suivi : des fins alternatives pour Stranger Things, des crossovers inter-studios comme Thanos combattant Superman, et des scènes recréant des moments iconiques du cinéma avec différents acteurs. Contrairement aux outils deepfake précédents qui nécessitaient des semaines d'entraînement sur des visages spécifiques, Seedance 2.0 produisait ces résultats instantanément à partir du modèle de base, ce qui suggère que ses données d'entraînement incluent probablement des quantités substantielles de contenu cinématographique protégé par le droit d'auteur.

Disney a envoyé une mise en demeure accusant ByteDance d'un "cambriolage virtuel" de sa propriété intellectuelle, alléguant que Seedance avait été préchargé avec "une bibliothèque piratée des personnages protégés de Disney" traités comme des "cliparts du domaine public gratuits." Paramount a formulé des menaces juridiques similaires.

La Human Artistry Campaign, dont les membres incluent SAG-AFTRA et la Directors Guild of America, a rejoint la Motion Picture Association pour condamner le modèle. Leur déclaration a qualifié Seedance 2.0 de "destructeur pour notre culture" et a affirmé que "voler le travail des créateurs humains pour tenter de les remplacer par de la production IA de mauvaise qualité" n'est pas de l'innovation.

La réponse de ByteDance

Le 16 février, ByteDance a annoncé avoir "entendu les préoccupations" et renforcerait les protections contre les violations de propriété intellectuelle. L'entreprise a suspendu les capacités de référence de personnes réelles de Seedance 2.0 en Chine, ce qui signifie que les utilisateurs ne peuvent plus télécharger de photos ou vidéos de personnes réelles comme entrées de référence. La capacité de génération texte-vers-vidéo reste active, mais avec des filtres de contenu supplémentaires.

Reste à savoir si ces restrictions seront maintenues ou étendues à l'accès international. Le modèle est déjà disponible via des fournisseurs d'API tiers, ce qui rend un contrôle complet du contenu difficile.

Ce que cela signifie pour la vidéo IA

Seedance 2.0 représente un véritable bond architectural dans la génération vidéo par IA. Le pipeline audio-vidéo unifié, le système d'entrée multi-référence et le mouvement sensible à la physique sont des réalisations techniques qui font avancer l'ensemble du domaine. Le modèle génère du contenu 30 % plus vite que son prédécesseur tout en produisant une sortie de meilleure qualité.

Mais le lancement a aussi cristallisé un problème autour duquel l'industrie tourne depuis des années : l'écart entre ce que les modèles vidéo IA peuvent générer et ce qu'ils devraient être autorisés à générer. La question des données d'entraînement est centrale. Si ces modèles sont entraînés sur du contenu protégé sans autorisation, chaque sortie comporte une responsabilité juridique potentielle qu'aucun filtre de contenu ne peut entièrement résoudre.

La rapidité avec laquelle Hollywood s'est mobilisé contre Seedance 2.0 suggère que ce combat va s'intensifier à mesure que davantage de modèles atteindront ce niveau de capacité. La barrière technique pour générer des vidéos convaincantes de personnes réelles à partir de prompts textuels s'est effectivement effondrée. Les barrières restantes sont juridiques, éthiques et réglementaires.

Genera

Seedance 2.0 : le modèle vidéo IA de ByteDance qui a secoué Hollywood en 72 heures

Ce que Seedance 2.0 peut faire

L'architecture sous-jacente

Les retombées à Hollywood

La réponse de ByteDance

Ce que cela signifie pour la vidéo IA

Related Articles

L'IA texte vers vidéo : comment la technologie fonctionne vraiment

Comment l'IA transforme l'animation de personnages

Les meilleurs générateurs vidéo IA gratuits à essayer