LLMs3 marca 20264 min read

Google uruchamia Gemini 3.1 Flash-Lite: regulowane myślenie za jedną ósmą ceny Pro

Google wydało Gemini 3.1 Flash-Lite 3 marca 2026 roku, dostępne w wersji podglądowej przez Gemini API. Jest to najszybszy i najbardziej opłacalny model w ofercie Google, zaprojektowany dla dużych obciążeń produkcyjnych, gdzie koszt za token jest równie ważny jak jakość.

Wyniki benchmarków

Mimo pozycjonowania jako model budżetowy, Flash-Lite osiąga mocne wyniki w benchmarkach rozumowania i wiedzy. Uzyskuje 86,9% na GPQA Diamond, teście rozumowania naukowego na poziomie magisterskim. Osiąga 76,8% na MMMU Pro w zakresie rozumienia multimodalnego i 88,9% na MMMLU w wielojęzycznym odpowiadaniu na pytania. Na tablicy wyników Arena.ai uzyskał wynik Elo 1432.

Te wyniki przewyższają większe modele Gemini z poprzednich generacji, w tym Gemini 2.5 Flash. Model, który kosztuje ułamek ceny swojego poprzednika, jednocześnie go przewyższając w kluczowych benchmarkach, stanowi znaczącą zmianę na krzywej kosztów i wydajności.

Regulowane poziomy myślenia

Najbardziej wyróżniającą cechą jest regulowane myślenie. Dostępne zarówno w AI Studio, jak i Vertex AI, programiści mogą wybierać, ile rozumowania model stosuje do każdego zadania. Niższe poziomy myślenia dają szybsze i tańsze odpowiedzi na proste zapytania. Wyższe poziomy uruchamiają głębsze rozumowanie dla złożonych problemów.

Daje to programistom precyzyjną kontrolę nad kompromisem między szybkością, kosztem a jakością na poziomie API. Potok moderacji treści przetwarzający miliony wiadomości dziennie może używać minimalnego myślenia. Zadanie generowania kodu wymagające starannej logiki może używać maksymalnego myślenia. Ten sam model obsługuje oba scenariusze, a programista wybiera odpowiedni poziom dla każdego żądania.

Szybkość i ceny

Flash-Lite działa 2,5 razy szybciej niż Gemini 2.5 Flash. Google ustaliło cenę na 0,25 USD za milion tokenów wejściowych i 1,50 USD za milion tokenów wyjściowych, czyli mniej więcej jedną ósmą kosztu modelu Pro. Przy tym poziomie cenowym staje się opłacalny dla zastosowań, które wcześniej były zbyt drogie, aby obsługiwać je za pomocą modelu frontierowego.

Tłumaczenia o dużym wolumenie, masowa moderacja treści, klasyfikacja dokumentów i aplikacje czatowe w czasie rzeczywistym to obciążenia, gdzie koszt za token jest głównym ograniczeniem. Flash-Lite celuje bezpośrednio w te scenariusze.

Przypadki użycia produkcyjnego

Google wyróżnia kilka zamierzonych zastosowań: tłumaczenia i lokalizację o dużym wolumenie, moderację treści na skalę, generowanie interfejsów użytkownika i dashboardów, tworzenie symulacji oraz złożone wykonywanie instrukcji. Model jest multimodalny, obsługuje tekst, obrazy i dane strukturalne.

Połączenie niskiego kosztu i silnej wydajności wielojęzycznej (88,9% MMMLU) czyni go szczególnie istotnym dla aplikacji obsługujących globalną publiczność. Procesy lokalizacji, które wcześniej wymagały oddzielnych modeli lub drogich wywołań API, mogą teraz działać przez jeden niskokosztowy endpoint.

Miejsce w ofercie modeli Google

Rodzina Gemini 3 Google obejmuje teraz szeroki zakres: Flash-Lite do pracy o dużym wolumenie wrażliwej na koszty, Flash do zrównoważonej wydajności i Pro do maksymalnych możliwości. Każdy poziom obsługuje inne wymagania produkcyjne, a funkcja regulowanego myślenia zaciera granice między nimi, pozwalając tańszemu modelowi obsługiwać trudniejsze zadania w razie potrzeby.

Implikacja konkurencyjna jest jasna. Dolna granica tego, co budżetowy model AI może dostarczyć, wciąż rośnie. Zadania, które pół roku temu wymagały modelu frontierowego, mogą teraz być obsługiwane przez model kosztujący ułamek ceny, z większą prędkością, przy porównywalnej lub lepszej dokładności. Dla każdego, kto buduje produkty oparte na AI, ekonomia ponownie się zmieniła.

Genera

Google uruchamia Gemini 3.1 Flash-Lite: regulowane myślenie za jedną ósmą ceny Pro

Wyniki benchmarków

Regulowane poziomy myślenia

Szybkość i ceny

Przypadki użycia produkcyjnego

Miejsce w ofercie modeli Google

Related Articles

OpenAI wydaje GPT-5.3 Instant: 400 tys. tokenów kontekstu, 27% mniej halucynacji, mniej nadmiernych odmów

AI tekst na wideo: jak naprawdę działa ta technologia

Kompletny przewodnik po stylach generowania obrazów AI