AI Video5 min read
Текст в видео с помощью ИИ: как на самом деле работает технология

ИИ для текста в видео берёт письменное описание и генерирует соответствующий видеоклип. Технология основана на тех же принципах, что и генерация изображений, но добавляет временное измерение, что делает задачу значительно сложнее.
Как работают модели текст-в-видео
Основная архитектура это Diffusion Transformer (DiT). Вместо удаления шума из 2D-изображения он работает с 3D-объёмом, представляющим все кадры одновременно. Закодированный промпт направляет процесс.
Почему видео сложнее изображений
HD-изображение содержит около 2 миллионов пикселей. 5-секундное HD-видео при 30 fps содержит около 300 миллионов. Помимо вычислительных затрат, видео требует понимания физики и причинно-следственных связей во времени.


