Lyria18 febbraio 20264 min read

Google lancia Lyria 3: la generazione musicale AI ora è dentro Gemini

Google ha annunciato oggi che sta portando la generazione musicale AI nell'app Gemini, alimentata dal modello Lyria 3 di DeepMind. La funzionalità viene distribuita globalmente in beta e consente a chiunque di generare una canzone originale di 30 secondi, completa di testi e copertina generata dall'AI, a partire da una semplice descrizione testuale o un'immagine caricata.

Cos'è Lyria 3?

Lyria 3 è il più recente modello di generazione musicale di DeepMind. Rispetto ai suoi predecessori, produce tracce più realistiche e compositivamente complesse attraverso un'ampia gamma di generi e mood. Il modello gestisce tutto in un singolo passaggio: melodia, arrangiamento, voci e testi vengono generati insieme piuttosto che assemblati da sistemi separati.

Il risultato è musica che suona coesa piuttosto che assemblata. Google descrive l'output come significativamente più espressivo rispetto alle iterazioni precedenti di Lyria, con una migliore gestione dei cambi di tempo, delle dinamiche e della performance vocale.

Come funziona

Gli utenti possono utilizzare lo strumento con linguaggio naturale. Una descrizione come "un brano jazz malinconico strumentale per una serata piovosa" o "canzone pop allegra sul ricominciare" è sufficiente per generare una traccia. Il modello produce l'audio insieme a testi corrispondenti e un'immagine di copertina creata utilizzando il sistema di generazione immagini Nano Banana di Google.

La modalità di input più interessante è quella da immagine e video a musica. Caricando una foto o un breve clip, Lyria 3 analizza l'atmosfera visiva, la palette di colori e il soggetto per comporre una colonna sonora appropriata. Questo rende lo strumento immediatamente utile per i creatori di contenuti che lavorano con materiale esistente.

Disponibilità

La generazione musicale viene distribuita a tutti gli utenti Gemini dai 18 anni in su. Le lingue supportate al lancio includono inglese, tedesco, spagnolo, francese, hindi, giapponese, coreano e portoghese. La funzionalità è attiva sulla versione desktop di Gemini ora, con la disponibilità mobile prevista nei prossimi giorni.

Gli utenti del piano gratuito sono limitati a generazioni di 30 secondi. Google non ha ancora annunciato se gli abbonati paganti di Gemini Advanced riceveranno output più lunghi o di qualità superiore, anche se i limiti attuali della beta si applicano a tutti.

YouTube Dream Track e watermarking SynthID

Insieme al lancio su Gemini, Google sta espandendo Dream Track, il suo strumento di generazione musicale alimentato da Lyria per i creatori YouTube, a un pubblico globale. Dream Track era precedentemente limitato a creatori selezionati negli Stati Uniti.

Ogni traccia generata da Lyria 3, sia tramite Gemini che Dream Track, viene automaticamente contrassegnata con la tecnologia SynthID di Google. SynthID incorpora un segnale impercettibile nell'audio che resiste alla compressione, alla ri-codifica e alla maggior parte delle operazioni comuni di post-elaborazione. Il watermark consente a piattaforme e ricercatori di verificare l'origine AI anche dopo che una traccia è stata ampiamente condivisa.

Perché questo è importante per i media generati dall'AI

La musica è stata una delle modalità più difficili da raggiungere per l'AI a livello di qualità consumer. La generazione di testo e immagini ha raggiunto l'adozione mainstream rispettivamente nel 2023 e nel 2024. Il video ha seguito. La musica è rimasta indietro, in parte per la complessità delle licenze e in parte perché la qualità audio è più difficile da simulare in modo convincente per un orecchio allenato.

L'arrivo di Lyria 3 all'interno di Gemini, un prodotto con centinaia di milioni di utenti, cambia completamente l'equazione della distribuzione. Questa non è una demo di ricerca o uno strumento di nicchia per produttori. È una funzionalità mainstream disponibile a chiunque abbia un account Google. Quella scala accelera la tempistica per cui la musica generata dall'AI diventerà una parte normale del modo in cui le persone creano contenuti online.

Cosa significa per i creatori video

Per i creatori che lavorano nel video, la funzionalità da immagine a musica è la capacità più immediatamente pratica. La possibilità di inserire un clip e ricevere una colonna sonora contestualmente appropriata elimina una delle parti più dispendiose in termini di tempo del flusso di lavoro di post-produzione: trovare o ottenere in licenza musica che si adatti all'atmosfera.

Questo indica un cambiamento più ampio nella produzione creativa. Ogni elemento di un video, dalle performance dei personaggi alla colonna sonora, è sempre più alla portata degli strumenti alimentati dall'AI. Le barriere tra un'idea iniziale e un video finito e rifinito stanno crollando più velocemente di quanto la maggior parte delle persone si aspettasse.

Genera

Google lancia Lyria 3: la generazione musicale AI ora è dentro Gemini

Cos'è Lyria 3?

Come funziona

Disponibilità

YouTube Dream Track e watermarking SynthID

Perché questo è importante per i media generati dall'AI

Cosa significa per i creatori video

Related Articles

IA testo-video: come funziona davvero la tecnologia

Guida completa agli stili di generazione immagini IA

L'etica dello scambio di volti con IA: cosa devono sapere i creatori