Google uruchamia Lyria 3: generowanie muzyki AI jest teraz w Gemini

Google ogłosiło dzisiaj, że wprowadza generowanie muzyki AI do aplikacji Gemini, zasilane modelem Lyria 3 od DeepMind. Funkcja jest wdrażana globalnie w wersji beta i pozwala każdemu wygenerować oryginalny 30-sekundowy utwór, kompletny z tekstami i okładką wygenerowaną przez AI, z prostego opisu tekstowego lub przesłanego zdjęcia.
Czym jest Lyria 3?
Lyria 3 to najnowszy model generowania muzyki od DeepMind. W porównaniu z poprzednikami produkuje bardziej realistyczne i kompozycyjnie złożone utwory w szerokim zakresie gatunków i nastrojów. Model obsługuje wszystko w jednym przebiegu: melodia, aranżacja, wokal i teksty są generowane razem, a nie montowane z oddzielnych systemów.
Rezultatem jest muzyka, która brzmi spójnie, a nie jak zmontowana. Google opisuje wyjście jako znacznie bardziej ekspresyjne niż wcześniejsze iteracje Lyria, z lepszym radzeniem sobie ze zmianami tempa, dynamiką i wykonaniem wokalnym.
Jak to działa
Użytkownicy mogą wydawać polecenia w języku naturalnym. Opis taki jak "melancholijna jazzowa instrumentalka na deszczowy wieczór" lub "radosna piosenka pop o nowym początku" wystarczy do wygenerowania utworu. Model produkuje audio wraz z dopasowanymi tekstami i okładką stworzoną przy użyciu systemu generowania obrazów Nano Banana od Google.
Ciekawszym trybem wejściowym jest generowanie muzyki z obrazu i wideo. Prześlij zdjęcie lub krótki klip, a Lyria 3 przeanalizuje nastrój wizualny, paletę kolorów i tematykę, aby skomponować odpowiednią ścieżkę dźwiękową. Sprawia to, że narzędzie jest natychmiast przydatne dla twórców treści pracujących z istniejącym materiałem filmowym.
Dostępność
Generowanie muzyki jest udostępniane wszystkim użytkownikom Gemini w wieku 18 lat i więcej. Języki obsługiwane na starcie to angielski, niemiecki, hiszpański, francuski, hindi, japoński, koreański i portugalski. Funkcja jest już dostępna w wersji desktopowej Gemini, a dostępność mobilna jest oczekiwana w ciągu najbliższych kilku dni.
Użytkownicy darmowego planu są ograniczeni do generacji 30-sekundowych. Google nie ogłosiło jeszcze, czy płatni subskrybenci Gemini Advanced otrzymają dłuższe lub wyższej jakości wyjścia, choć obecne limity beta obowiązują dla wszystkich.
YouTube Dream Track i znakowanie wodne SynthID
Równocześnie z premierą w Gemini, Google rozszerza Dream Track, swoje narzędzie do generowania muzyki zasilane Lyria dla twórców YouTube, na odbiorców globalnych. Dream Track był wcześniej ograniczony do wybranych twórców w USA.
Każdy utwór wygenerowany przez Lyria 3, zarówno przez Gemini, jak i Dream Track, jest automatycznie znakowany wodnie przy użyciu technologii SynthID od Google. SynthID osadza niezauważalny sygnał w audio, który przetrwa kompresję, ponowne kodowanie i większość typowych operacji postprodukcyjnych. Znak wodny pozwala platformom i badaczom zweryfikować pochodzenie AI nawet po szerokim udostępnieniu utworu.
Dlaczego to ma znaczenie dla mediów generowanych przez AI
Muzyka była jedną z trudniejszych modalności do osiągnięcia jakości konsumenckiej przez AI. Generowanie tekstu i obrazów osiągnęło masową adopcję odpowiednio w 2023 i 2024 roku. Wideo poszło w ślad. Muzyka pozostawała w tyle, częściowo z powodu złożoności licencji i częściowo dlatego, że jakość dźwięku trudniej przekonująco podrobić dla wytrenowanego ucha.
Pojawienie się Lyria 3 w Gemini, produkcie z setkami milionów użytkowników, całkowicie zmienia równanie dystrybucji. To nie jest demo badawcze ani niszowe narzędzie dla producentów. To ogólnodostępna funkcja dla każdego z kontem Google. Taka skala przyspiesza harmonogram, w którym muzyka generowana przez AI staje się normalną częścią tego, jak ludzie tworzą treści w internecie.
Co to oznacza dla twórców wideo
Dla twórców pracujących z wideo, funkcja generowania muzyki z obrazu jest najbardziej bezpośrednio praktyczną możliwością. Możliwość wrzucenia klipu i otrzymania kontekstowo odpowiedniej ścieżki dźwiękowej eliminuje jedną z najbardziej czasochłonnych części procesu postprodukcji: szukanie lub licencjonowanie muzyki pasującej do nastroju.
To wskazuje na szerszą zmianę w produkcji kreatywnej. Każdy element wideo, od występów postaci po ścieżkę dźwiękową, jest coraz bardziej w zasięgu narzędzi zasilanych przez AI. Bariery między początkowym pomysłem a gotowym, dopracowanym wideo załamują się szybciej, niż większość ludzi się spodziewała.


