Google lanza Gemini 3.1 Flash-Lite: pensamiento ajustable a un octavo del coste de Pro

Google lanzó Gemini 3.1 Flash-Lite el 3 de marzo de 2026, disponible en vista previa a través de la API de Gemini. Es el modelo más rápido y rentable de la gama de Google, diseñado para cargas de trabajo de producción de alto volumen donde el coste por token importa tanto como la calidad.
Rendimiento en benchmarks
A pesar de estar posicionado como un modelo económico, Flash-Lite publica cifras sólidas en benchmarks de razonamiento y conocimiento. Obtiene un 86,9% en GPQA Diamond, una prueba de razonamiento científico de nivel de posgrado. Alcanza un 76,8% en MMMU Pro para comprensión multimodal y un 88,9% en MMMLU para respuesta de preguntas multilingüe. En la clasificación de Arena.ai, logró una puntuación Elo de 1432.
Estas puntuaciones superan a modelos Gemini más grandes de generaciones anteriores, incluido Gemini 2.5 Flash. Un modelo que cuesta una fracción de su predecesor mientras lo supera en benchmarks clave representa un cambio significativo en la curva de coste-rendimiento.
Niveles de pensamiento ajustable
La característica más distintiva es el pensamiento ajustable. Disponible tanto en AI Studio como en Vertex AI, los desarrolladores pueden seleccionar cuánto razonamiento aplica el modelo a cada tarea. Los niveles de pensamiento más bajos producen respuestas más rápidas y económicas para consultas sencillas. Los niveles más altos activan un razonamiento más profundo para problemas complejos.
Esto da a los desarrolladores un control granular sobre el equilibrio entre velocidad, coste y calidad a nivel de API. Un pipeline de moderación de contenido que procesa millones de mensajes al día puede usar pensamiento mínimo. Una tarea de generación de código que requiere lógica cuidadosa puede usar pensamiento máximo. El mismo modelo maneja ambos escenarios, con el desarrollador eligiendo el nivel apropiado por solicitud.
Velocidad y precios
Flash-Lite funciona 2,5 veces más rápido que Gemini 2.5 Flash. Google lo fijó en $0,25 por millón de tokens de entrada y $1,50 por millón de tokens de salida, aproximadamente un octavo del coste del modelo Pro. A este precio, se vuelve viable para casos de uso que anteriormente eran demasiado costosos para ejecutar a través de un modelo de frontera.
Traducción de alto volumen, moderación masiva de contenido, clasificación de documentos y aplicaciones de chat en tiempo real son todas cargas de trabajo donde el coste por token es la restricción principal. Flash-Lite apunta a estos escenarios directamente.
Casos de uso en producción
Google destaca varias aplicaciones previstas: traducción y localización de alto volumen, moderación de contenido a escala, generación de interfaces y dashboards, creación de simulaciones y seguimiento de instrucciones complejas. El modelo es multimodal y maneja texto, imágenes y datos estructurados.
La combinación de bajo coste y sólido rendimiento multilingüe (88,9% en MMMLU) lo hace particularmente relevante para aplicaciones que sirven a audiencias globales. Los flujos de trabajo de localización que anteriormente requerían modelos separados o costosas llamadas a API ahora pueden ejecutarse a través de un único endpoint de bajo coste.
Su lugar en la gama de modelos de Google
La familia Gemini 3 de Google ahora abarca un amplio rango: Flash-Lite para trabajo de alto volumen sensible al coste, Flash para rendimiento equilibrado y Pro para máxima capacidad. Cada nivel sirve a requisitos de producción diferentes, y la función de pensamiento ajustable difumina las fronteras entre ellos al permitir que un modelo más económico maneje tareas más difíciles cuando es necesario.
La implicación competitiva es clara. El piso para lo que un modelo de IA económico puede ofrecer sigue subiendo. Tareas que requerían un modelo de frontera hace seis meses ahora pueden ser manejadas por un modelo que cuesta una fracción del precio, a mayor velocidad, con precisión comparable o superior. Para cualquiera que construya productos basados en IA, la economía acaba de cambiar otra vez.


