AI Video5 min read
Tekst-naar-video AI: hoe de technologie echt werkt

Tekst-naar-video AI neemt een geschreven beschrijving en genereert een bijpassend videoclip. De technologie bouwt voort op dezelfde basis als beeldgeneratie, maar voegt de tijdsdimensie toe, wat de taak aanzienlijk complexer maakt.
Hoe tekst-naar-videomodellen werken
De kernarchitectuur is de Diffusion Transformer (DiT). In plaats van een 2D-beeld te ontruisen, werkt het op een 3D-volume dat alle frames tegelijk vertegenwoordigt. De gecodeerde prompt stuurt het ontruisingsproces.
Waarom video moeilijker is dan beelden
Een HD-beeld bevat ongeveer 2 miljoen pixels. Een 5-seconden HD-video op 30 fps bevat ongeveer 300 miljoen. Naast de rekenkosten vereist video begrip van fysica en causaliteit over de tijd.


