Seedance 2.0: el modelo de video con IA de ByteDance que sacudió Hollywood en 72 horas

El 10 de febrero de 2026, ByteDance lanzó Seedance 2.0 a través de su aplicación Doubao en China y la plataforma creativa Jimeng AI. En 72 horas, clips generados por IA con actores de Hollywood inundaban las redes sociales, el equipo legal de Disney había enviado una carta de cese y desistimiento, y SAG-AFTRA calificaba al modelo como "un ataque contra todos los creadores del mundo." Esto es lo que Seedance 2.0 realmente hace, por qué provocó esta respuesta y qué señala sobre el futuro de la generación de video con IA.
Qué puede hacer Seedance 2.0
Seedance 2.0 está construido sobre una arquitectura Dual-Branch Diffusion Transformer (DiT) que genera audio y video simultáneamente. A diferencia de modelos anteriores que producen clips silenciosos que requieren trabajo de audio por separado, Seedance 2.0 genera video con banda sonora completa, incluyendo diálogos, música y efectos de sonido sincronizados con el contenido visual.
El modelo acepta hasta 12 archivos de entrada a la vez: imágenes, videos y audio. Los usuarios pueden proporcionarle una imagen de referencia para el estilo visual, un clip de video para el movimiento y trabajo de cámara, y una pista de audio para marcar el ritmo. El modelo sintetiza todo esto en una salida coherente de hasta 15 segundos a resolución 2K.
Dentro de esos 15 segundos, el modelo puede producir múltiples tomas con cortes y transiciones naturales, de modo que una sola generación puede parecer una secuencia editada en lugar de un clip continuo. Maneja zooms dolly, cambios de enfoque, planos de seguimiento, cambios de punto de vista y movimiento fluido de cámara en mano. Las interacciones entre objetos siguen una física realista: las colisiones tienen peso, la tela se rasga de forma natural y los personajes se mueven con credibilidad física incluso en secuencias de alta acción.
La arquitectura detrás del modelo
La arquitectura Diffusion Transformer reemplaza el backbone U-Net tradicionalmente utilizado en modelos de difusión. Los transformers aportan mejor escalabilidad y mecanismos de atención más efectivos para capturar relaciones de largo alcance en dimensiones tanto espaciales como temporales. Esto es lo que permite al modelo mantener una apariencia de personaje, iluminación y física consistentes a lo largo de todo un clip, en lugar de generar cada fotograma de manera semi-independiente.
El diseño de doble rama significa que el audio y el video se generan en paralelo a través de rutas de procesamiento vinculadas pero separadas. Esto es arquitectónicamente diferente de los modelos que generan video primero y añaden audio como paso de postprocesamiento. El resultado es una sincronización más ajustada: los movimientos labiales coinciden con los diálogos, los impactos se alinean con los efectos de sonido y la música sigue el ritmo visual.
La reacción de Hollywood
Horas después del lanzamiento, las redes sociales se inundaron de contenido generado con Seedance. El clip que más atención recibió fue creado por el cineasta irlandés Ruairi Robinson: una pelea hiperrealista en una azotea entre Tom Cruise y Brad Pitt, generada a partir de un simple prompt de texto. Era lo suficientemente realista como para engañar a espectadores casuales.
Rápidamente siguieron más clips: finales alternativos de Stranger Things, crossovers entre estudios como Thanos peleando contra Superman, y escenas que recreaban momentos icónicos del cine con diferentes actores. A diferencia de herramientas deepfake anteriores que requerían semanas de entrenamiento con rostros específicos, Seedance 2.0 producía estos resultados al instante desde el modelo base, lo que sugiere que sus datos de entrenamiento probablemente incluyen cantidades sustanciales de contenido cinematográfico con derechos de autor.
Disney envió una carta de cese y desistimiento acusando a ByteDance de un "robo virtual" de su propiedad intelectual, alegando que Seedance había sido precargado con "una biblioteca pirata de personajes con derechos de autor de Disney" tratados como "clip art de dominio público gratuito." Paramount emitió amenazas legales similares.
La Human Artistry Campaign, cuyos miembros incluyen a SAG-AFTRA y el Directors Guild of America, se unió a la Motion Picture Association para condenar el modelo. Su comunicado calificó a Seedance 2.0 como "destructivo para nuestra cultura" y afirmó que "robar el trabajo de creadores humanos en un intento de reemplazarlos con basura generada por IA" no es innovación.
La respuesta de ByteDance
El 16 de febrero, ByteDance anunció que había "escuchado las preocupaciones" y fortalecería las salvaguardas contra violaciones de propiedad intelectual. La empresa suspendió las capacidades de referencia de personas reales de Seedance 2.0 dentro de China, lo que significa que los usuarios ya no pueden subir fotos o videos de personas reales como entradas de referencia. La capacidad de generación de texto a video permanece activa, aunque con filtros de contenido adicionales.
Si estas restricciones se mantendrán o se extenderán al acceso internacional queda por verse. El modelo ya está disponible a través de proveedores de API de terceros, lo que dificulta un control completo del contenido.
Qué significa esto para el video con IA
Seedance 2.0 representa un salto arquitectónico genuino en la generación de video con IA. El pipeline unificado de audio y video, el sistema de entrada de múltiples referencias y el movimiento con conciencia de la física son logros técnicos que impulsan todo el campo hacia adelante. El modelo genera contenido un 30% más rápido que su predecesor y produce una salida de mayor calidad.
Pero el lanzamiento también cristalizó un problema que la industria lleva años rodeando: la brecha entre lo que los modelos de video con IA pueden generar y lo que se les debería permitir generar. La cuestión de los datos de entrenamiento es central. Si estos modelos se entrenan con contenido protegido por derechos de autor sin permiso, cada resultado conlleva una posible responsabilidad legal que ningún filtro de contenido puede abordar por completo.
La velocidad con la que Hollywood se movilizó contra Seedance 2.0 sugiere que esta batalla se intensificará a medida que más modelos alcancen este nivel de capacidad. La barrera técnica para generar video convincente de personas reales a partir de prompts de texto se ha derrumbado efectivamente. Las barreras restantes son legales, éticas y regulatorias.


