Google Lança Lyria 3: Geração de Música com IA Agora Está Dentro do Gemini

O Google anunciou hoje que está trazendo a geração de música com IA para o aplicativo Gemini, alimentada pelo modelo Lyria 3 da DeepMind. O recurso está sendo disponibilizado globalmente em beta e permite que qualquer pessoa gere uma música original de 30 segundos, completa com letra e arte de capa gerada por IA, a partir de uma simples descrição em texto ou uma imagem carregada.
O Que É o Lyria 3?
O Lyria 3 é o mais recente modelo de geração de música da DeepMind. Comparado aos seus antecessores, ele produz faixas mais realistas e composicionalmente complexas em uma ampla variedade de gêneros e estados de espírito. O modelo lida com tudo em uma única passagem: melodia, arranjo, vocais e letras são todos gerados juntos, em vez de montados a partir de sistemas separados.
O resultado é uma música que soa coesa, em vez de montada. O Google descreve a saída como significativamente mais expressiva do que as iterações anteriores do Lyria, com melhor tratamento de mudanças de tempo, dinâmica e performance vocal.
Como Funciona
Os usuários podem dar comandos à ferramenta em linguagem natural. Uma descrição como "um instrumental de jazz melancólico para uma noite chuvosa" ou "música pop animada sobre recomeçar" é suficiente para gerar uma faixa. O modelo produz o áudio junto com letras correspondentes e uma imagem de capa criada usando o sistema de geração de imagens Nano Banana do Google.
O modo de entrada mais interessante é a conversão de imagem e vídeo em música. Carregue uma foto ou um clipe curto e o Lyria 3 analisa o clima visual, a paleta de cores e o assunto para compor uma trilha sonora adequada. Isso torna a ferramenta imediatamente útil para criadores de conteúdo que trabalham com material existente.
Disponibilidade
A geração de música está sendo disponibilizada para todos os usuários do Gemini com 18 anos ou mais. Os idiomas suportados no lançamento incluem inglês, alemão, espanhol, francês, hindi, japonês, coreano e português. O recurso está disponível na versão desktop do Gemini agora, com disponibilidade móvel esperada nos próximos dias.
Usuários do plano gratuito estão limitados a gerações de 30 segundos. O Google ainda não anunciou se os assinantes pagos do Gemini Advanced receberão saídas mais longas ou de maior qualidade, embora os limites atuais do beta se apliquem a todos.
YouTube Dream Track e Marca D'água SynthID
Junto com o lançamento no Gemini, o Google está expandindo o Dream Track, sua ferramenta de geração de música alimentada pelo Lyria para criadores do YouTube, para um público global. O Dream Track era anteriormente limitado a criadores selecionados nos EUA.
Toda faixa gerada pelo Lyria 3, seja pelo Gemini ou Dream Track, recebe automaticamente uma marca d'água usando a tecnologia SynthID do Google. O SynthID incorpora um sinal imperceptível no áudio que sobrevive à compressão, recodificação e à maioria das operações comuns de pós-processamento. A marca d'água permite que plataformas e pesquisadores verifiquem a origem por IA mesmo depois que uma faixa tenha sido amplamente compartilhada.
Por Que Isso Importa para Mídia Gerada por IA
A música tem sido uma das modalidades mais difíceis para a IA atingir qualidade de consumo. A geração de texto e imagem alcançou adoção mainstream em 2023 e 2024, respectivamente. O vídeo veio em seguida. A música ficou para trás, em parte pela complexidade do licenciamento e em parte porque a qualidade do áudio é mais difícil de falsificar de forma convincente para um ouvido treinado.
O Lyria 3 chegando dentro do Gemini, um produto com centenas de milhões de usuários, muda completamente a equação de distribuição. Isso não é uma demonstração de pesquisa ou uma ferramenta de nicho para produtores. É um recurso mainstream disponível para qualquer pessoa com uma conta do Google. Essa escala acelera o cronograma para que a música gerada por IA se torne uma parte normal de como as pessoas criam conteúdo online.
O Que Significa para Criadores de Vídeo
Para criadores que trabalham com vídeo, o recurso de imagem-para-música é a capacidade mais imediatamente prática. A possibilidade de inserir um clipe e receber uma trilha sonora contextualmente apropriada remove uma das partes mais demoradas do fluxo de pós-produção: encontrar ou licenciar música que combine com o clima.
Isso aponta para uma mudança mais ampla na produção criativa. Cada elemento de um vídeo, desde as performances dos personagens até a trilha sonora, está cada vez mais ao alcance de ferramentas alimentadas por IA. As barreiras entre uma ideia inicial e um vídeo finalizado e polido estão desmoronando mais rápido do que a maioria das pessoas esperava.


