Seedance 2.0: ByteDances KI-Videomodell, das Hollywood in 72 Stunden erschütterte

Am 10. Februar 2026 veröffentlichte ByteDance Seedance 2.0 über seine Doubao-App in China und die kreative Plattform Jimeng AI. Innerhalb von 72 Stunden überfluteten KI-generierte Clips mit Hollywood-Schauspielern die sozialen Medien, Disneys Rechtsabteilung hatte eine Unterlassungsaufforderung verschickt, und SAG-AFTRA bezeichnete das Modell als "einen Angriff auf jeden Kreativen weltweit." Hier ist, was Seedance 2.0 tatsächlich kann, warum es diese Reaktion ausgelöst hat und was es über die Zukunft der KI-Videogenerierung aussagt.
Was Seedance 2.0 kann
Seedance 2.0 basiert auf einer Dual-Branch Diffusion Transformer (DiT) Architektur, die Audio und Video gleichzeitig generiert. Im Gegensatz zu früheren Modellen, die stumme Clips erzeugen und separate Audioarbeit erfordern, gibt Seedance 2.0 vollständig vertonte Videos mit Dialogen, Musik und Soundeffekten aus, synchronisiert mit dem visuellen Inhalt.
Das Modell akzeptiert bis zu 12 Eingabedateien gleichzeitig: Bilder, Videos und Audio. Nutzer können ein Referenzbild für den visuellen Stil, einen Videoclip für Bewegung und Kameraführung sowie eine Audiospur zur Rhythmussteuerung einspeisen. Das Modell synthetisiert all dies zu einer einzelnen kohärenten Ausgabe von bis zu 15 Sekunden in 2K-Auflösung.
Innerhalb dieser 15 Sekunden kann das Modell mehrere Einstellungen mit natürlichen Schnitten und Übergängen erzeugen, sodass eine einzelne Generierung wie eine bearbeitete Sequenz wirkt statt wie ein durchgehender Clip. Es beherrscht Dolly-Zooms, Schärfenverlagerungen, Kamerafahrten, Perspektivwechsel und flüssige Handkamerabewegungen. Objektinteraktionen folgen realistischer Physik: Kollisionen haben Gewicht, Stoff reißt natürlich, und Charaktere bewegen sich auch in actionreichen Sequenzen physisch glaubwürdig.
Die Architektur dahinter
Die Diffusion-Transformer-Architektur ersetzt das traditionell in Diffusionsmodellen verwendete U-Net-Backbone. Transformer bieten bessere Skalierbarkeit und effektivere Aufmerksamkeitsmechanismen zur Erfassung weitreichender Beziehungen über räumliche und zeitliche Dimensionen hinweg. Dies ermöglicht es dem Modell, konsistentes Aussehen von Charakteren, Beleuchtung und Physik über einen gesamten Clip hinweg beizubehalten, anstatt jedes Einzelbild semi-unabhängig zu generieren.
Das Dual-Branch-Design bedeutet, dass Audio und Video parallel über verknüpfte, aber separate Verarbeitungspfade generiert werden. Dies unterscheidet sich architektonisch von Modellen, die zuerst Video generieren und Audio als Nachbearbeitungsschritt hinzufügen. Das Ergebnis ist engere Synchronisation: Lippenbewegungen passen zu Dialogen, Aufprälle stimmen mit Soundeffekten überein, und Musik folgt dem visuellen Rhythmus.
Die Reaktion aus Hollywood
Stunden nach dem Launch waren die sozialen Medien mit Seedance-generierten Inhalten überflutet. Der Clip, der die meiste Aufmerksamkeit erhielt, wurde vom irischen Filmemacher Ruairi Robinson erstellt: ein hyperrealistischer Dachkampf zwischen Tom Cruise und Brad Pitt, generiert aus einem einfachen Textprompt. Er war realistisch genug, um Gelegenheitszuschauer zu täuschen.
Schnell folgten weitere Clips: alternative Enden für Stranger Things, studioübergreifende Mashups wie Thanos gegen Superman und Szenen, die ikonische Filmmomente mit anderen Schauspielern nachstellten. Im Gegensatz zu früheren Deepfake-Tools, die wochenlang auf bestimmte Gesichter trainiert werden mussten, erzeugte Seedance 2.0 diese Ergebnisse sofort aus dem Basismodell. Das legt nahe, dass die Trainingsdaten wahrscheinlich erhebliche Mengen urheberrechtlich geschützter Filminhalte enthalten.
Disney schickte eine Unterlassungsaufforderung und warf ByteDance einen "virtuellen Raubüberfall" auf sein geistiges Eigentum vor. Das Unternehmen behauptete, Seedance sei mit "einer Raubkopien-Bibliothek von Disneys urheberrechtlich geschützten Figuren" vorgeladen worden, die als "kostenlose gemeinfreie Cliparts" behandelt würden. Paramount sprach ähnliche rechtliche Drohungen aus.
Die Human Artistry Campaign, zu deren Mitgliedern SAG-AFTRA und die Directors Guild of America gehören, schloss sich der Motion Picture Association an und verurteilte das Modell. Ihre Erklärung bezeichnete Seedance 2.0 als "zerstörerisch für unsere Kultur" und erklärte, dass "das Stehlen der Arbeit menschlicher Kreativer in dem Versuch, sie durch KI-generierten Müll zu ersetzen" keine Innovation sei.
ByteDances Reaktion
Am 16. Februar gab ByteDance bekannt, die Bedenken "gehört" zu haben, und kündigte verstärkte Schutzmaßnahmen gegen Verletzungen geistigen Eigentums an. Das Unternehmen setzte die Referenzierungsfunktion für reale Personen in Seedance 2.0 innerhalb Chinas aus. Nutzer können also keine Fotos oder Videos realer Personen mehr als Referenzeingaben hochladen. Die Text-zu-Video-Generierung bleibt aktiv, allerdings mit zusätzlichen Inhaltsfiltern.
Ob diese Einschränkungen bestehen bleiben oder auf den internationalen Zugang ausgeweitet werden, bleibt abzuwarten. Das Modell ist bereits über Drittanbieter-API-Anbieter verfügbar, was eine vollständige Inhaltskontrolle erschwert.
Was das für KI-Video bedeutet
Seedance 2.0 stellt einen echten architektonischen Sprung in der KI-Videogenerierung dar. Die einheitliche Audio-Video-Pipeline, das Multi-Referenz-Eingabesystem und die physikbewusste Bewegung sind technische Errungenschaften, die das gesamte Feld voranbringen. Das Modell generiert Inhalte 30 % schneller als sein Vorgänger bei gleichzeitig höherer Ausgabequalität.
Doch der Launch hat auch ein Problem kristallisiert, um das die Branche seit Jahren kreist: die Kluft zwischen dem, was KI-Videomodelle generieren können, und dem, was sie generieren dürfen sollten. Die Frage der Trainingsdaten ist zentral. Wenn diese Modelle ohne Erlaubnis mit urheberrechtlich geschützten Inhalten trainiert werden, trägt jede Ausgabe eine potenzielle rechtliche Haftung, die kein Inhaltsfilter vollständig beheben kann.
Die Geschwindigkeit, mit der Hollywood gegen Seedance 2.0 mobil machte, lässt darauf schließen, dass dieser Kampf sich verschärfen wird, sobald mehr Modelle dieses Fähigkeitsniveau erreichen. Die technische Hürde für die Generierung überzeugender Videos von realen Personen aus Textprompts ist praktisch zusammengebrochen. Die verbleibenden Hürden sind rechtlicher, ethischer und regulatorischer Natur.


