Скидка 25%: 500 кредитов всего за $15
Back to blog
Lyria4 min read

Google запускает Lyria 3: генерация музыки с помощью ИИ теперь внутри Gemini

Google запускает Lyria 3: генерация музыки с помощью ИИ теперь внутри Gemini

Google объявил сегодня о внедрении генерации музыки на базе ИИ в приложение Gemini с использованием модели DeepMind Lyria 3. Функция разворачивается по всему миру в режиме бета-тестирования и позволяет любому создать оригинальную 30-секундную песню с текстом и обложкой, сгенерированной ИИ, на основе простого текстового описания или загруженного изображения.

Что такое Lyria 3?

Lyria 3 является новейшей моделью генерации музыки от DeepMind. По сравнению с предшественниками она создает более реалистичные и композиционно сложные треки в широком диапазоне жанров и настроений. Модель обрабатывает всё за один проход: мелодия, аранжировка, вокал и текст генерируются вместе, а не собираются из отдельных систем.

В результате получается музыка, которая звучит цельно, а не смонтированно. Google описывает результат как значительно более выразительный по сравнению с предыдущими версиями Lyria, с лучшей обработкой смены темпа, динамики и вокального исполнения.

Как это работает

Пользователи могут обращаться к инструменту на обычном языке. Описания вроде "меланхоличный джазовый инструментал для дождливого вечера" или "бодрая поп-песня о новом начале" достаточно для генерации трека. Модель создает аудио вместе с подходящим текстом и обложкой, созданной с помощью системы генерации изображений Google Nano Banana.

Более интересным режимом ввода является генерация музыки из изображения и видео. Загрузите фотографию или короткий клип, и Lyria 3 проанализирует визуальное настроение, цветовую палитру и предмет изображения, чтобы сочинить подходящий саундтрек. Это делает инструмент немедленно полезным для создателей контента, работающих с существующими материалами.

Доступность

Генерация музыки становится доступной для всех пользователей Gemini от 18 лет. Поддерживаемые языки на старте включают английский, немецкий, испанский, французский, хинди, японский, корейский и португальский. Функция уже доступна в настольной версии Gemini, а мобильная версия ожидается в течение ближайших дней.

Пользователи бесплатного уровня ограничены 30-секундными генерациями. Google пока не объявил, получат ли платные подписчики Gemini Advanced более длинные или более качественные результаты, хотя текущие ограничения бета-версии применяются ко всем.

YouTube Dream Track и водяные знаки SynthID

Наряду с запуском в Gemini, Google расширяет Dream Track, свой инструмент генерации музыки на базе Lyria для создателей YouTube, на глобальную аудиторию. Ранее Dream Track был доступен только для избранных создателей в США.

Каждый трек, сгенерированный Lyria 3, будь то через Gemini или Dream Track, автоматически маркируется водяным знаком с помощью технологии Google SynthID. SynthID встраивает незаметный сигнал в аудио, который сохраняется после сжатия, перекодирования и большинства распространенных операций постобработки. Водяной знак позволяет платформам и исследователям подтвердить ИИ-происхождение даже после широкого распространения трека.

Почему это важно для медиа, созданных ИИ

Музыка была одной из наиболее сложных модальностей для ИИ в плане достижения потребительского качества. Генерация текста и изображений достигла массового распространения в 2023 и 2024 годах соответственно. Видео последовало за ними. Музыка отставала, отчасти из-за сложности лицензирования, отчасти потому, что качество звука труднее подделать убедительно для натренированного уха.

Интеграция Lyria 3 в Gemini, продукт с сотнями миллионов пользователей, полностью меняет ситуацию с распространением. Это не исследовательская демонстрация и не нишевый инструмент для продюсеров. Это массовая функция, доступная каждому, у кого есть аккаунт Google. Такой масштаб ускоряет сроки, когда музыка, созданная ИИ, станет нормальной частью создания контента в интернете.

Что это значит для создателей видео

Для создателей, работающих с видео, функция генерации музыки из изображения является наиболее практичной возможностью. Способность загрузить клип и получить контекстно подходящий саундтрек устраняет одну из наиболее трудоемких частей постпродакшна: поиск или лицензирование музыки, соответствующей настроению.

Это указывает на более широкий сдвиг в творческом производстве. Каждый элемент видео, от игры персонажей до саундтрека, становится всё более доступным для инструментов на базе ИИ. Барьеры между первоначальной идеей и готовым, отполированным видео рушатся быстрее, чем ожидало большинство.

Related Articles