AI Video5 min read
IA testo-video: come funziona davvero la tecnologia

L'IA testo-video prende una descrizione scritta e genera un clip video corrispondente. La tecnologia si basa sulle stesse fondamenta della generazione di immagini, ma aggiunge la dimensione temporale, rendendo il compito notevolmente più complesso.
Come funzionano i modelli testo-video
L'architettura principale è il Diffusion Transformer (DiT). Invece di fare il denoising di un'immagine 2D, opera su un volume 3D che rappresenta tutti i fotogrammi simultaneamente. Il prompt codificato guida il processo.
Perché il video è più difficile delle immagini
Un'immagine HD contiene circa 2 milioni di pixel. Un video HD di 5 secondi a 30 fps ne contiene circa 300 milioni. Oltre al costo computazionale, il video richiede la comprensione della fisica e della causalità nel tempo.


