Google запускает Gemini 3.1 Flash-Lite: настраиваемое мышление за одну восьмую стоимости Pro

Google выпустил Gemini 3.1 Flash-Lite 3 марта 2026 года в режиме предварительного доступа через Gemini API. Это самая быстрая и экономичная модель в линейке Google, предназначенная для высоконагруженных производственных задач, где стоимость одного token имеет такое же значение, как и качество.
Результаты бенчмарков
Несмотря на позиционирование как бюджетная модель, Flash-Lite демонстрирует высокие результаты в бенчмарках на рассуждение и знания. Она набирает 86,9% на GPQA Diamond, тесте на научное рассуждение уровня аспирантуры. На MMMU Pro для мультимодального понимания результат составляет 76,8%, а на MMMLU для многоязычных вопросов и ответов — 88,9%. На рейтинге Arena.ai модель достигла Elo-рейтинга 1432.
Эти результаты превосходят показатели более крупных моделей Gemini предыдущих поколений, включая Gemini 2.5 Flash. Модель, которая стоит значительно меньше предшественника и при этом превосходит его по ключевым бенчмаркам, представляет собой заметный сдвиг на кривой соотношения стоимости и производительности.
Настраиваемые уровни мышления
Наиболее отличительная функция — настраиваемое мышление. Доступная как в AI Studio, так и в Vertex AI, она позволяет разработчикам выбирать, какой объём рассуждений модель применяет к каждой задаче. Низкие уровни мышления дают более быстрые и дешёвые ответы на простые запросы. Высокие уровни задействуют глубокое рассуждение для сложных задач.
Это даёт разработчикам детальный контроль над балансом скорости, стоимости и качества на уровне API. Конвейер модерации контента, обрабатывающий миллионы сообщений в день, может использовать минимальный уровень мышления. Задача генерации кода, требующая тщательной логики, может использовать максимальный. Одна и та же модель справляется с обоими сценариями, а разработчик выбирает подходящий уровень для каждого запроса.
Скорость и ценообразование
Flash-Lite работает в 2,5 раза быстрее Gemini 2.5 Flash. Google установил цену $0,25 за миллион входных tokens и $1,50 за миллион выходных tokens, что примерно в восемь раз дешевле модели Pro. При таком уровне цен становятся жизнеспособными задачи, которые ранее было слишком дорого обрабатывать через модель передового уровня.
Массовый перевод, масштабная модерация контента, классификация документов и приложения для чата в реальном времени — всё это задачи, где стоимость за token является основным ограничением. Flash-Lite нацелена именно на эти сценарии.
Производственные сценарии использования
Google выделяет несколько целевых применений: массовый перевод и локализацию, модерацию контента в масштабе, генерацию интерфейсов и дашбордов, создание симуляций и сложное следование инструкциям. Модель мультимодальна и работает с текстом, изображениями и структурированными данными.
Сочетание низкой стоимости и высокой многоязычной производительности (88,9% MMMLU) делает её особенно актуальной для приложений, обслуживающих глобальную аудиторию. Рабочие процессы локализации, для которых ранее требовались отдельные модели или дорогие вызовы API, теперь могут работать через единый недорогой endpoint.
Место в линейке моделей Google
Семейство Gemini 3 от Google теперь охватывает широкий диапазон: Flash-Lite для экономичных высоконагруженных задач, Flash для сбалансированной производительности и Pro для максимальных возможностей. Каждый уровень обслуживает различные производственные требования, а функция настраиваемого мышления размывает границы между ними, позволяя более дешёвой модели справляться с более сложными задачами при необходимости.
Конкурентные последствия очевидны. Нижняя планка того, что может обеспечить бюджетная модель ИИ, продолжает расти. Задачи, для которых полгода назад требовалась модель передового уровня, теперь могут быть решены моделью, стоящей в разы дешевле, с большей скоростью и сопоставимой или лучшей точностью. Для всех, кто создаёт продукты на базе ИИ, экономика только что снова изменилась.


