Google lance Lyria 3 : la génération musicale IA est désormais dans Gemini

Google a annoncé aujourd'hui qu'il intègre la génération musicale IA dans l'application Gemini, alimentée par le modèle Lyria 3 de DeepMind. La fonctionnalité est déployée mondialement en version bêta et permet à quiconque de générer une chanson originale de 30 secondes, complète avec paroles et pochette générée par IA, à partir d'une simple description textuelle ou d'une image téléchargée.
Qu'est-ce que Lyria 3 ?
Lyria 3 est le dernier modèle de génération musicale de DeepMind. Comparé à ses prédécesseurs, il produit des morceaux plus réalistes et plus complexes sur le plan compositionnel, couvrant une large gamme de genres et d'ambiances. Le modèle gère tout en une seule passe : mélodie, arrangement, voix et paroles sont générés ensemble plutôt qu'assemblés à partir de systèmes séparés.
Le résultat est une musique qui sonne cohérente plutôt qu'assemblée. Google décrit la sortie comme significativement plus expressive que les itérations précédentes de Lyria, avec une meilleure gestion des changements de tempo, des dynamiques et de la performance vocale.
Comment ça fonctionne
Les utilisateurs peuvent formuler leur demande en langage naturel. Une description comme "un morceau de jazz mélancolique et instrumental pour une soirée pluvieuse" ou "une chanson pop entraînante sur le fait de repartir de zéro" suffit à générer un morceau. Le modèle produit l'audio accompagné de paroles correspondantes et d'une image de couverture créée avec le système de génération d'images Nano Banana de Google.
Le mode d'entrée le plus intéressant est la conversion image et vidéo vers musique. Téléchargez une photo ou un court clip et Lyria 3 analyse l'ambiance visuelle, la palette de couleurs et le sujet pour composer une bande-son appropriée. Cela rend l'outil immédiatement utile pour les créateurs de contenu travaillant avec des images existantes.
Disponibilité
La génération musicale est déployée pour tous les utilisateurs de Gemini âgés de 18 ans et plus. Les langues prises en charge au lancement incluent l'anglais, l'allemand, l'espagnol, le français, le hindi, le japonais, le coréen et le portugais. La fonctionnalité est disponible sur la version bureau de Gemini dès maintenant, avec une disponibilité mobile attendue dans les prochains jours.
Les utilisateurs du niveau gratuit sont limités à des générations de 30 secondes. Google n'a pas encore annoncé si les abonnés payants de Gemini Advanced recevront des sorties plus longues ou de meilleure qualité, bien que les limites actuelles de la bêta s'appliquent à tous.
YouTube Dream Track et filigrane SynthID
Parallèlement au lancement sur Gemini, Google étend Dream Track, son outil de génération musicale alimenté par Lyria pour les créateurs YouTube, à une audience mondiale. Dream Track était auparavant limité à des créateurs sélectionnés aux États-Unis.
Chaque morceau généré par Lyria 3, que ce soit via Gemini ou Dream Track, est automatiquement filigrané avec la technologie SynthID de Google. SynthID intègre un signal imperceptible dans l'audio qui survit à la compression, au réencodage et à la plupart des opérations de post-traitement courantes. Le filigrane permet aux plateformes et aux chercheurs de vérifier l'origine IA même après qu'un morceau a été largement partagé.
Pourquoi c'est important pour les médias générés par IA
La musique a été l'une des modalités les plus difficiles à maîtriser pour l'IA au niveau de qualité grand public. La génération de texte et d'images a atteint l'adoption grand public en 2023 et 2024 respectivement. La vidéo a suivi. La musique a pris du retard, en partie à cause de la complexité des licences et en partie parce que la qualité audio est plus difficile à simuler de manière convaincante pour une oreille entraînée.
L'arrivée de Lyria 3 dans Gemini, un produit comptant des centaines de millions d'utilisateurs, change complètement l'équation de distribution. Ce n'est pas une démonstration de recherche ni un outil de niche pour les producteurs. C'est une fonctionnalité grand public disponible pour quiconque possède un compte Google. Cette échelle accélère le calendrier de normalisation de la musique générée par IA dans la création de contenu en ligne.
Ce que cela signifie pour les créateurs vidéo
Pour les créateurs travaillant dans la vidéo, la fonctionnalité image-vers-musique est la capacité la plus immédiatement pratique. La possibilité d'intégrer un clip et de recevoir une bande-son contextuellement appropriée supprime l'une des parties les plus chronophages du flux de post-production : trouver ou obtenir une licence pour une musique adaptée à l'ambiance.
Cela pointe vers un changement plus large dans la production créative. Chaque élément d'une vidéo, des performances des personnages à la bande-son, est de plus en plus à la portée des outils alimentés par l'IA. Les barrières entre une idée initiale et une vidéo finie et soignée s'effondrent plus vite que la plupart des gens ne l'avaient prévu.


