25% zniżki: 500 kredytów za jedyne $15
Back to blog
Lyria4 min read

Google uruchamia Lyria 3: generowanie muzyki AI jest teraz w Gemini

Google uruchamia Lyria 3: generowanie muzyki AI jest teraz w Gemini

Google ogłosiło dzisiaj, że wprowadza generowanie muzyki AI do aplikacji Gemini, zasilane modelem Lyria 3 od DeepMind. Funkcja jest wdrażana globalnie w wersji beta i pozwala każdemu wygenerować oryginalny 30-sekundowy utwór, kompletny z tekstami i okładką wygenerowaną przez AI, z prostego opisu tekstowego lub przesłanego zdjęcia.

Czym jest Lyria 3?

Lyria 3 to najnowszy model generowania muzyki od DeepMind. W porównaniu z poprzednikami produkuje bardziej realistyczne i kompozycyjnie złożone utwory w szerokim zakresie gatunków i nastrojów. Model obsługuje wszystko w jednym przebiegu: melodia, aranżacja, wokal i teksty są generowane razem, a nie montowane z oddzielnych systemów.

Rezultatem jest muzyka, która brzmi spójnie, a nie jak zmontowana. Google opisuje wyjście jako znacznie bardziej ekspresyjne niż wcześniejsze iteracje Lyria, z lepszym radzeniem sobie ze zmianami tempa, dynamiką i wykonaniem wokalnym.

Jak to działa

Użytkownicy mogą wydawać polecenia w języku naturalnym. Opis taki jak "melancholijna jazzowa instrumentalka na deszczowy wieczór" lub "radosna piosenka pop o nowym początku" wystarczy do wygenerowania utworu. Model produkuje audio wraz z dopasowanymi tekstami i okładką stworzoną przy użyciu systemu generowania obrazów Nano Banana od Google.

Ciekawszym trybem wejściowym jest generowanie muzyki z obrazu i wideo. Prześlij zdjęcie lub krótki klip, a Lyria 3 przeanalizuje nastrój wizualny, paletę kolorów i tematykę, aby skomponować odpowiednią ścieżkę dźwiękową. Sprawia to, że narzędzie jest natychmiast przydatne dla twórców treści pracujących z istniejącym materiałem filmowym.

Dostępność

Generowanie muzyki jest udostępniane wszystkim użytkownikom Gemini w wieku 18 lat i więcej. Języki obsługiwane na starcie to angielski, niemiecki, hiszpański, francuski, hindi, japoński, koreański i portugalski. Funkcja jest już dostępna w wersji desktopowej Gemini, a dostępność mobilna jest oczekiwana w ciągu najbliższych kilku dni.

Użytkownicy darmowego planu są ograniczeni do generacji 30-sekundowych. Google nie ogłosiło jeszcze, czy płatni subskrybenci Gemini Advanced otrzymają dłuższe lub wyższej jakości wyjścia, choć obecne limity beta obowiązują dla wszystkich.

YouTube Dream Track i znakowanie wodne SynthID

Równocześnie z premierą w Gemini, Google rozszerza Dream Track, swoje narzędzie do generowania muzyki zasilane Lyria dla twórców YouTube, na odbiorców globalnych. Dream Track był wcześniej ograniczony do wybranych twórców w USA.

Każdy utwór wygenerowany przez Lyria 3, zarówno przez Gemini, jak i Dream Track, jest automatycznie znakowany wodnie przy użyciu technologii SynthID od Google. SynthID osadza niezauważalny sygnał w audio, który przetrwa kompresję, ponowne kodowanie i większość typowych operacji postprodukcyjnych. Znak wodny pozwala platformom i badaczom zweryfikować pochodzenie AI nawet po szerokim udostępnieniu utworu.

Dlaczego to ma znaczenie dla mediów generowanych przez AI

Muzyka była jedną z trudniejszych modalności do osiągnięcia jakości konsumenckiej przez AI. Generowanie tekstu i obrazów osiągnęło masową adopcję odpowiednio w 2023 i 2024 roku. Wideo poszło w ślad. Muzyka pozostawała w tyle, częściowo z powodu złożoności licencji i częściowo dlatego, że jakość dźwięku trudniej przekonująco podrobić dla wytrenowanego ucha.

Pojawienie się Lyria 3 w Gemini, produkcie z setkami milionów użytkowników, całkowicie zmienia równanie dystrybucji. To nie jest demo badawcze ani niszowe narzędzie dla producentów. To ogólnodostępna funkcja dla każdego z kontem Google. Taka skala przyspiesza harmonogram, w którym muzyka generowana przez AI staje się normalną częścią tego, jak ludzie tworzą treści w internecie.

Co to oznacza dla twórców wideo

Dla twórców pracujących z wideo, funkcja generowania muzyki z obrazu jest najbardziej bezpośrednio praktyczną możliwością. Możliwość wrzucenia klipu i otrzymania kontekstowo odpowiedniej ścieżki dźwiękowej eliminuje jedną z najbardziej czasochłonnych części procesu postprodukcji: szukanie lub licencjonowanie muzyki pasującej do nastroju.

To wskazuje na szerszą zmianę w produkcji kreatywnej. Każdy element wideo, od występów postaci po ścieżkę dźwiękową, jest coraz bardziej w zasięgu narzędzi zasilanych przez AI. Bariery między początkowym pomysłem a gotowym, dopracowanym wideo załamują się szybciej, niż większość ludzi się spodziewała.

Related Articles