Seedance 2.0: il modello video AI di ByteDance che ha scosso Hollywood in 72 ore

Il 10 febbraio 2026, ByteDance ha rilasciato Seedance 2.0 attraverso la sua app Doubao in Cina e la piattaforma creativa Jimeng AI. Entro 72 ore, clip generate dall'AI con attori hollywoodiani stavano invadendo i social media, il team legale di Disney aveva inviato una diffida, e SAG-AFTRA definiva il modello "un attacco a ogni creatore nel mondo." Ecco cosa fa realmente Seedance 2.0, perché ha scatenato questa reazione e cosa segnala sulla direzione della generazione video AI.
Cosa può fare Seedance 2.0
Seedance 2.0 è costruito su un'architettura Dual-Branch Diffusion Transformer (DiT) che genera audio e video simultaneamente. A differenza dei modelli precedenti che producono clip mute che richiedono un lavoro audio separato, Seedance 2.0 produce video completamente sonorizzati con dialoghi, musica ed effetti sonori sincronizzati con il contenuto visivo.
Il modello accetta fino a 12 file di input contemporaneamente: immagini, video e audio. Gli utenti possono fornire un'immagine di riferimento per lo stile visivo, una clip video per il movimento e il lavoro di camera, e una traccia audio per guidare il ritmo. Il modello sintetizza tutto questo in un singolo output coerente fino a 15 secondi a risoluzione 2K.
In quei 15 secondi, il modello può produrre più inquadrature con tagli e transizioni naturali, così che una singola generazione può sembrare una sequenza montata piuttosto che una clip continua. Gestisce zoom dolly, cambi di messa a fuoco, piani sequenza, cambi di punto di vista e movimenti fluidi di camera a mano. Le interazioni tra oggetti seguono una fisica realistica: le collisioni hanno peso, il tessuto si strappa naturalmente e i personaggi si muovono con credibilità fisica anche nelle sequenze ad alta intensità.
L'architettura dietro il modello
L'architettura Diffusion Transformer sostituisce il backbone U-Net tradizionalmente utilizzato nei modelli di diffusione. I transformer offrono migliore scalabilità e meccanismi di attenzione più efficaci per catturare relazioni a lungo raggio sia nelle dimensioni spaziali che temporali. Questo è ciò che permette al modello di mantenere un aspetto coerente dei personaggi, illuminazione e fisica lungo l'intero clip, invece di generare ogni fotogramma in modo semi-indipendente.
Il design a doppio ramo significa che audio e video vengono generati in parallelo attraverso percorsi di elaborazione collegati ma separati. Questo è architettonicamente diverso dai modelli che generano prima il video e aggiungono l'audio come fase di post-elaborazione. Il risultato è una sincronizzazione più stretta: i movimenti delle labbra corrispondono ai dialoghi, gli impatti si allineano con gli effetti sonori e la musica segue il ritmo visivo.
Le ripercussioni a Hollywood
Poche ore dopo il lancio, i social media erano inondati di contenuti generati con Seedance. La clip che ha ricevuto più attenzione è stata creata dal regista irlandese Ruairi Robinson: un combattimento iperrealistico su un tetto tra Tom Cruise e Brad Pitt, generato da un semplice prompt testuale. Era abbastanza realistico da ingannare spettatori occasionali.
Altre clip sono seguite rapidamente: finali alternativi di Stranger Things, crossover tra studi come Thanos che combatte Superman, e scene che ricreano momenti iconici del cinema con attori diversi. A differenza dei precedenti strumenti deepfake che richiedevano settimane di addestramento su volti specifici, Seedance 2.0 produceva questi risultati istantaneamente dal modello base, il che suggerisce che i suoi dati di addestramento includano probabilmente quantità sostanziali di contenuti cinematografici protetti da copyright.
Disney ha inviato una diffida accusando ByteDance di un "furto virtuale" della sua proprietà intellettuale, sostenendo che Seedance era stato precaricato con "una biblioteca piratata dei personaggi protetti da copyright di Disney" trattati come "clipart di dominio pubblico gratuita." Paramount ha emesso minacce legali simili.
La Human Artistry Campaign, i cui membri includono SAG-AFTRA e la Directors Guild of America, si è unita alla Motion Picture Association nel condannare il modello. La loro dichiarazione ha definito Seedance 2.0 "distruttivo per la nostra cultura" e ha affermato che "rubare il lavoro dei creatori umani nel tentativo di sostituirli con spazzatura generata dall'AI" non è innovazione.
La risposta di ByteDance
Il 16 febbraio, ByteDance ha annunciato di aver "ascoltato le preoccupazioni" e che avrebbe rafforzato le salvaguardie contro le violazioni della proprietà intellettuale. L'azienda ha sospeso le capacità di riferimento a persone reali di Seedance 2.0 in Cina, il che significa che gli utenti non possono più caricare foto o video di persone reali come input di riferimento. La capacità di generazione da testo a video rimane attiva, anche se con filtri di contenuto aggiuntivi.
Se queste restrizioni reggeranno o si estenderanno all'accesso internazionale resta da vedere. Il modello è già disponibile tramite fornitori di API di terze parti, il che rende difficile un controllo completo dei contenuti.
Cosa significa per il video AI
Seedance 2.0 rappresenta un genuino salto architettonico nella generazione video AI. La pipeline audio-video unificata, il sistema di input multi-riferimento e il movimento consapevole della fisica sono conquiste tecniche che fanno avanzare l'intero campo. Il modello genera contenuti il 30% più velocemente del suo predecessore, producendo al contempo un output di qualità superiore.
Ma il lancio ha anche cristallizzato un problema intorno al quale l'industria gira da anni: il divario tra ciò che i modelli video AI possono generare e ciò che dovrebbe essere loro permesso generare. La questione dei dati di addestramento è centrale. Se questi modelli vengono addestrati su contenuti protetti da copyright senza autorizzazione, ogni output porta con sé una potenziale responsabilità legale che nessun filtro di contenuto può affrontare completamente.
La velocità con cui Hollywood si è mobilitata contro Seedance 2.0 suggerisce che questa battaglia si intensificherà man mano che più modelli raggiungeranno questo livello di capacità. La barriera tecnica per generare video convincenti di persone reali a partire da prompt testuali è effettivamente crollata. Le barriere rimanenti sono legali, etiche e normative.


