25% zniżki: 500 kredytów za jedyne $15
Back to blog
AI Video5 min read

Seedance 2.0: model wideo AI od ByteDance, który wstrząsnął Hollywood w 72 godziny

Seedance 2.0: model wideo AI od ByteDance, który wstrząsnął Hollywood w 72 godziny

10 lutego 2026 roku ByteDance udostępnił Seedance 2.0 poprzez swoją aplikację Doubao w Chinach oraz platformę kreatywną Jimeng AI. W ciągu 72 godzin klipy generowane przez AI z udziałem aktorów Hollywood zalewały media społecznościowe, zespół prawny Disney wysłał wezwanie do zaprzestania naruszeń, a SAG-AFTRA nazywała model "atakiem na każdego twórcę na świecie." Oto, co Seedance 2.0 faktycznie potrafi, dlaczego wywołał taką reakcję i co to sygnalizuje o przyszłości generowania wideo przez AI.

Co potrafi Seedance 2.0

Seedance 2.0 jest zbudowany na architekturze Dual-Branch Diffusion Transformer (DiT), która generuje dźwięk i wideo jednocześnie. W przeciwieństwie do wcześniejszych modeli, które produkują nieme klipy wymagające osobnej pracy nad dźwiękiem, Seedance 2.0 generuje w pełni udźwiękowione wideo z dialogami, muzyką i efektami dźwiękowymi zsynchronizowanymi z treścią wizualną.

Model przyjmuje do 12 plików wejściowych jednocześnie: obrazy, wideo i dźwięk. Użytkownicy mogą dostarczyć obraz referencyjny dla stylu wizualnego, klip wideo dla ruchu i pracy kamery oraz ścieżkę dźwiękową do sterowania rytmem. Model syntetyzuje to wszystko w pojedyncze, spójne wyjście trwające do 15 sekund w rozdzielczości 2K.

W ramach tych 15 sekund model może wygenerować wiele ujęć z naturalnymi cięciami i przejściami, dzięki czemu pojedyncza generacja może wyglądać jak zmontowana sekwencja, a nie ciągły klip. Obsługuje zoomy dolly, zmiany ostrości, ujęcia śledzące, zmiany punktu widzenia i płynny ruch kamery z ręki. Interakcje między obiektami podlegają realistycznej fizyce: zderzenia mają ciężar, tkanina rwie się naturalnie, a postacie poruszają się z fizyczną wiarygodnością nawet w dynamicznych sekwencjach akcji.

Architektura stojąca za modelem

Architektura Diffusion Transformer zastępuje backbone U-Net tradycyjnie stosowany w modelach dyfuzyjnych. Transformery zapewniają lepszą skalowalność i bardziej efektywne mechanizmy uwagi do wychwytywania relacji dalekiego zasięgu zarówno w wymiarach przestrzennych, jak i czasowych. To właśnie pozwala modelowi utrzymywać spójny wygląd postaci, oświetlenie i fizykę przez cały klip, zamiast generować każdą klatkę w sposób pół-niezależny.

Konstrukcja podwójnej gałęzi oznacza, że dźwięk i wideo są generowane równolegle poprzez powiązane, ale oddzielne ścieżki przetwarzania. Jest to architektonicznie odmienne od modeli, które najpierw generują wideo, a następnie dodają dźwięk jako krok postprodukcji. Rezultatem jest ściślejsza synchronizacja: ruchy ust pasują do dialogów, uderzenia pokrywają się z efektami dźwiękowymi, a muzyka podąża za rytmem wizualnym.

Reakcja Hollywood

Kilka godzin po premierze media społecznościowe zostały zalane treściami wygenerowanymi przez Seedance. Klip, który zyskał największą uwagę, został stworzony przez irlandzkiego filmowca Ruairi Robinsona: hiperrealistyczna walka na dachu między Tom Cruise a Brad Pitt, wygenerowana z prostego promptu tekstowego. Był wystarczająco realistyczny, by zmylić przypadkowych widzów.

Szybko pojawiły się kolejne klipy: alternatywne zakończenia Stranger Things, crossovery między studiami, takie jak Thanos walczący z Supermanem, oraz sceny odtwarzające kultowe momenty filmowe z innymi aktorami. W przeciwieństwie do wcześniejszych narzędzi deepfake, które wymagały tygodni treningu na konkretnych twarzach, Seedance 2.0 generował te wyniki natychmiast z modelu bazowego, co sugeruje, że jego dane treningowe prawdopodobnie zawierają znaczne ilości chronionych prawem autorskim treści filmowych.

Disney wysłał wezwanie do zaprzestania naruszeń, oskarżając ByteDance o "wirtualny napad" na swoją własność intelektualną, twierdząc, że Seedance został załadowany "piracką biblioteką chronionych prawem autorskim postaci Disney" traktowanych jako "darmowy clipart z domeny publicznej." Paramount wystosował podobne groźby prawne.

Human Artistry Campaign, do której członków należą SAG-AFTRA i Directors Guild of America, dołączyła do Motion Picture Association w potępieniu modelu. Ich oświadczenie nazwało Seedance 2.0 "destrukcyjnym dla naszej kultury" i stwierdziło, że "kradzież pracy ludzkich twórców w próbie zastąpienia ich generowanym przez AI śmieciem" nie jest innowacją.

Odpowiedź ByteDance

16 lutego ByteDance ogłosił, że "usłyszał obawy" i wzmocni zabezpieczenia przed naruszeniami własności intelektualnej. Firma zawiesiła możliwości referencji do prawdziwych osób w Seedance 2.0 na terenie Chin, co oznacza, że użytkownicy nie mogą już przesyłać zdjęć ani filmów prawdziwych ludzi jako danych referencyjnych. Możliwość generowania wideo z tekstu pozostaje aktywna, choć z dodatkowymi filtrami treści.

Czy te ograniczenia się utrzymają lub zostaną rozszerzone na dostęp międzynarodowy, dopiero się okaże. Model jest już dostępny za pośrednictwem zewnętrznych dostawców API, co utrudnia pełną kontrolę nad treściami.

Co to oznacza dla wideo AI

Seedance 2.0 stanowi prawdziwy skok architektoniczny w generowaniu wideo przez AI. Ujednolicony pipeline audio-wideo, system wejścia z wieloma referencjami i ruch uwzględniający fizykę to osiągnięcia techniczne, które posuwają całą dziedzinę do przodu. Model generuje treści o 30% szybciej niż jego poprzednik, jednocześnie produkując wyjście wyższej jakości.

Ale premiera skrystalizowała również problem, wokół którego branża krąży od lat: przepaść między tym, co modele wideo AI mogą generować, a tym, co powinno im być dozwolone. Kwestia danych treningowych jest kluczowa. Jeśli te modele są trenowane na treściach chronionych prawem autorskim bez pozwolenia, każde wyjście niesie ze sobą potencjalną odpowiedzialność prawną, której żaden filtr treści nie jest w stanie w pełni rozwiązać.

Szybkość, z jaką Hollywood zmobilizował się przeciwko Seedance 2.0, sugeruje, że ta walka będzie się nasilać w miarę jak coraz więcej modeli osiągnie ten poziom możliwości. Bariera techniczna dla generowania przekonującego wideo prawdziwych ludzi z promptów tekstowych praktycznie się załamała. Pozostałe bariery mają charakter prawny, etyczny i regulacyjny.

Related Articles