25% Rabatt: 500 Credits für nur $15
Back to blog
Lyria4 min read

Google startet Lyria 3: KI-Musikgenerierung ist jetzt in Gemini integriert

Google startet Lyria 3: KI-Musikgenerierung ist jetzt in Gemini integriert

Google hat heute angekündigt, dass KI-Musikgenerierung in die Gemini-App kommt, angetrieben von DeepMinds Lyria 3-Modell. Die Funktion wird weltweit als Beta ausgerollt und ermöglicht es jedem, einen originellen 30-Sekunden-Song zu generieren, komplett mit Texten und KI-generiertem Coverartwork, aus einer einfachen Textbeschreibung oder einem hochgeladenen Bild.

Was ist Lyria 3?

Lyria 3 ist DeepMinds neuestes Musikgenerierungsmodell. Im Vergleich zu seinen Vorgängern erzeugt es realistischere und kompositorisch komplexere Stücke über ein breites Spektrum von Genres und Stimmungen. Das Modell erledigt alles in einem einzigen Durchgang: Melodie, Arrangement, Gesang und Texte werden gemeinsam generiert statt aus separaten Systemen zusammengefügt.

Das Ergebnis ist Musik, die zusammenhängend klingt statt zusammengebaut. Google beschreibt die Ausgabe als deutlich expressiver als frühere Lyria-Iterationen, mit besserem Umgang mit Tempowechseln, Dynamik und Gesangsperformance.

Wie es funktioniert

Nutzer können das Tool in normaler Sprache ansprechen. Eine Beschreibung wie "ein melancholisches Jazz-Instrumental für einen regnerischen Abend" oder "fröhlicher Popsong übers Neuanfangen" reicht aus, um einen Track zu generieren. Das Modell erzeugt das Audio zusammen mit passenden Texten und einem Coverbild, das mit Googles Nano Banana-Bildgenerierungssystem erstellt wurde.

Der interessantere Eingabemodus ist Bild- und Video-zu-Musik. Man lädt ein Foto oder einen kurzen Clip hoch, und Lyria 3 analysiert die visuelle Stimmung, Farbpalette und das Motiv, um einen passenden Soundtrack zu komponieren. Das macht das Tool sofort nützlich für Content-Creator, die mit bestehendem Material arbeiten.

Verfügbarkeit

Die Musikgenerierung wird für alle Gemini-Nutzer ab 18 Jahren ausgerollt. Unterstützte Sprachen zum Start sind Englisch, Deutsch, Spanisch, Französisch, Hindi, Japanisch, Koreanisch und Portugiesisch. Die Funktion ist jetzt auf der Desktop-Version von Gemini verfügbar, mit mobiler Verfügbarkeit in den nächsten Tagen.

Nutzer der kostenlosen Stufe sind auf 30-Sekunden-Generierungen begrenzt. Google hat noch nicht angekündigt, ob zahlende Gemini Advanced-Abonnenten längere oder qualitativ hochwertigere Ausgaben erhalten werden, obwohl die aktuellen Beta-Limits für alle gelten.

YouTube Dream Track und SynthID-Wasserzeichen

Neben dem Gemini-Start erweitert Google Dream Track, sein Lyria-gestütztes Musikgenerierungstool für YouTube-Creator, auf ein globales Publikum. Dream Track war zuvor auf ausgewählte Creator in den USA beschränkt.

Jeder von Lyria 3 generierte Track, ob über Gemini oder Dream Track, wird automatisch mit Googles SynthID-Technologie mit einem Wasserzeichen versehen. SynthID bettet ein unmerkliches Signal in das Audio ein, das Komprimierung, Neucodierung und die meisten gängigen Nachbearbeitungsoperationen übersteht. Das Wasserzeichen ermöglicht es Plattformen und Forschern, den KI-Ursprung auch nach breiter Verbreitung eines Tracks zu verifizieren.

Warum das für KI-generierte Medien wichtig ist

Musik war eine der schwierigeren Modalitäten für KI in Verbraucherqualität. Text- und Bildgenerierung erreichten 2023 beziehungsweise 2024 die breite Akzeptanz. Video folgte. Musik hinkte hinterher, teils wegen der Komplexität der Lizenzierung und teils weil Audioqualität für ein geschultes Ohr schwerer überzeugend zu imitieren ist.

Dass Lyria 3 in Gemini landet, einem Produkt mit Hunderten Millionen Nutzern, verändert die Verteilungsgleichung grundlegend. Dies ist keine Forschungsdemo oder ein Nischentool für Produzenten. Es ist eine Mainstream-Funktion, die jedem mit einem Google-Konto zur Verfügung steht. Diese Reichweite beschleunigt den Zeitrahmen, in dem KI-generierte Musik ein normaler Teil der Online-Content-Erstellung wird.

Was es für Video-Creator bedeutet

Für Creator, die mit Video arbeiten, ist die Bild-zu-Musik-Funktion die unmittelbar praktischste Fähigkeit. Die Möglichkeit, einen Clip einzufügen und einen kontextuell passenden Soundtrack zu erhalten, beseitigt einen der zeitaufwändigsten Teile des Postproduktions-Workflows: Musik zu finden oder zu lizenzieren, die zur Stimmung passt.

Dies deutet auf einen breiteren Wandel in der kreativen Produktion hin. Jedes Element eines Videos, von Charakterperformances bis zum Soundtrack, ist zunehmend in Reichweite KI-gestützter Tools. Die Barrieren zwischen einer ersten Idee und einem fertigen, polierten Video fallen schneller, als die meisten erwartet hätten.

Related Articles