LLMs3 mars 20264 min read

Google lance Gemini 3.1 Flash-Lite : raisonnement ajustable à un huitième du coût de Pro

Google a publié Gemini 3.1 Flash-Lite le 3 mars 2026, disponible en version préliminaire via l'API Gemini. C'est le modèle le plus rapide et le plus économique de la gamme Google, conçu pour les charges de travail en production à fort volume où le coût par token compte autant que la qualité.

Performances sur les benchmarks

Bien qu'il soit positionné comme un modèle économique, Flash-Lite affiche des résultats solides sur les benchmarks de raisonnement et de connaissances. Il obtient 86,9 % sur GPQA Diamond, un test de raisonnement scientifique de niveau universitaire avancé. Il atteint 76,8 % sur MMMU Pro pour la compréhension multimodale et 88,9 % sur MMMLU pour les questions-réponses multilingues. Sur le classement Arena.ai, il a obtenu un score Elo de 1432.

Ces scores dépassent ceux de modèles Gemini plus grands des générations précédentes, y compris Gemini 2.5 Flash. Un modèle qui coûte une fraction de son prédécesseur tout en le surpassant sur des benchmarks clés représente un changement significatif dans la courbe coût-performance.

Niveaux de raisonnement ajustables

La fonctionnalité la plus distinctive est le raisonnement ajustable. Disponible à la fois dans AI Studio et Vertex AI, les développeurs peuvent sélectionner la profondeur de raisonnement que le modèle applique à chaque tâche. Les niveaux de raisonnement inférieurs produisent des réponses plus rapides et moins coûteuses pour les requêtes simples. Les niveaux supérieurs engagent un raisonnement plus approfondi pour les problèmes complexes.

Cela donne aux développeurs un contrôle granulaire sur le compromis vitesse-coût-qualité au niveau de l'API. Un pipeline de modération de contenu traitant des millions de messages par jour peut utiliser un raisonnement minimal. Une tâche de génération de code nécessitant une logique minutieuse peut utiliser le raisonnement maximal. Le même modèle gère les deux cas, le développeur choisissant le niveau approprié pour chaque requête.

Vitesse et tarification

Flash-Lite fonctionne 2,5 fois plus vite que Gemini 2.5 Flash. Google l'a tarifé à 0,25 $ par million de tokens en entrée et 1,50 $ par million de tokens en sortie, soit environ un huitième du coût du modèle Pro. À ce niveau de prix, il devient viable pour des cas d'usage auparavant trop coûteux pour être traités par un modèle de pointe.

La traduction à fort volume, la modération de contenu en masse, la classification de documents et les applications de chat en temps réel sont autant de charges de travail où le coût par token est la contrainte principale. Flash-Lite cible directement ces scénarios.

Cas d'usage en production

Google met en avant plusieurs applications prévues : la traduction et la localisation à fort volume, la modération de contenu à grande échelle, la génération d'interfaces et de tableaux de bord, la création de simulations et le suivi d'instructions complexes. Le modèle est multimodal et gère le texte, les images et les données structurées.

La combinaison d'un faible coût et de solides performances multilingues (88,9 % sur MMMLU) le rend particulièrement pertinent pour les applications desservant un public mondial. Les flux de travail de localisation qui nécessitaient auparavant des modèles séparés ou des appels API coûteux peuvent désormais passer par un seul point d'accès économique.

Sa place dans la gamme de modèles Google

La famille Gemini 3 de Google couvre désormais un large spectre : Flash-Lite pour les travaux à fort volume sensibles aux coûts, Flash pour des performances équilibrées, et Pro pour une capacité maximale. Chaque niveau répond à des exigences de production différentes, et la fonctionnalité de raisonnement ajustable brouille les frontières entre eux en permettant à un modèle moins cher de traiter des tâches plus difficiles quand c'est nécessaire.

L'implication concurrentielle est claire. Le plancher de ce qu'un modèle IA économique peut offrir ne cesse de s'élever. Des tâches qui nécessitaient un modèle de pointe il y a six mois peuvent désormais être gérées par un modèle coûtant une fraction du prix, à une vitesse supérieure, avec une précision comparable ou meilleure. Pour quiconque développe des produits alimentés par l'IA, l'équation économique vient de changer à nouveau.

Genera

Google lance Gemini 3.1 Flash-Lite : raisonnement ajustable à un huitième du coût de Pro

Performances sur les benchmarks

Niveaux de raisonnement ajustables

Vitesse et tarification

Cas d'usage en production

Sa place dans la gamme de modèles Google

Related Articles

OpenAI lance GPT-5.3 Instant : 400K de contexte, 27 % d'hallucinations en moins, moins de refus excessifs

L'IA texte vers vidéo : comment la technologie fonctionne vraiment

Guide complet des styles de génération d'images IA