25% korting: 500 credits voor slechts $15
Back to blog
LLMs4 min read

Google lanceert Gemini 3.1 Flash-Lite: instelbaar denkvermogen tegen een achtste van de prijs van Pro

Google lanceert Gemini 3.1 Flash-Lite: instelbaar denkvermogen tegen een achtste van de prijs van Pro

Google heeft Gemini 3.1 Flash-Lite uitgebracht op 3 maart 2026, beschikbaar als preview via de Gemini API. Het is het snelste en meest kostenefficiënte model in Google's assortiment, ontworpen voor productie-workloads met hoog volume waarbij de kosten per token net zo belangrijk zijn als de kwaliteit.

Benchmarkprestaties

Ondanks zijn positionering als budgetmodel scoort Flash-Lite sterk op redeneer- en kennisbenchmarks. Het scoort 86,9% op GPQA Diamond, een redeneertest op graduaatniveau in de wetenschap. Het haalt 76,8% op MMMU Pro voor multimodaal begrip en 88,9% op MMMLU voor meertalige vraagbeantwoording. Op het Arena.ai-klassement behaalde het een Elo-score van 1432.

Deze scores overtreffen grotere Gemini-modellen uit eerdere generaties, waaronder Gemini 2.5 Flash. Een model dat een fractie kost van zijn voorganger en het tegelijkertijd op belangrijke benchmarks overtreft, vertegenwoordigt een betekenisvolle verschuiving in de kosten-prestatiecurve.

Instelbare denkniveaus

Het meest onderscheidende kenmerk zijn de instelbare denkniveaus. Beschikbaar in zowel AI Studio als Vertex AI, kunnen ontwikkelaars selecteren hoeveel redenering het model op elke taak toepast. Lagere denkniveaus produceren snellere, goedkopere antwoorden voor eenvoudige vragen. Hogere niveaus activeren dieper redeneren voor complexe problemen.

Dit geeft ontwikkelaars gedetailleerde controle over de snelheid-kosten-kwaliteitsafweging op API-niveau. Een contentmoderatiepipeline die miljoenen berichten per dag verwerkt, kan minimaal denkvermogen gebruiken. Een codegeneratietaak die zorgvuldige logica vereist, kan maximaal denkvermogen gebruiken. Hetzelfde model behandelt beide, waarbij de ontwikkelaar het juiste niveau per verzoek kiest.

Snelheid en prijsstelling

Flash-Lite draait 2,5 keer sneller dan Gemini 2.5 Flash. Google heeft het geprijsd op $0,25 per miljoen invoertokens en $1,50 per miljoen uitvoertokens, ruwweg een achtste van de kosten van het Pro-model. Op dit prijspunt wordt het haalbaar voor toepassingen die voorheen te duur waren om via een frontier-model te draaien.

Vertaling op hoog volume, bulkcontentmoderatie, documentclassificatie en realtime chatapplicaties zijn allemaal workloads waarbij de kosten per token de primaire beperking vormen. Flash-Lite richt zich direct op deze scenario's.

Productietoepassingen

Google benadrukt verschillende beoogde toepassingen: vertaling en lokalisatie op hoog volume, contentmoderatie op schaal, UI- en dashboardgeneratie, simulatiecreatie en het volgen van complexe instructies. Het model is multimodaal en verwerkt tekst, afbeeldingen en gestructureerde data.

De combinatie van lage kosten en sterke meertalige prestaties (88,9% MMMLU) maakt het bijzonder relevant voor applicaties die een wereldwijd publiek bedienen. Lokalisatie-workflows die voorheen afzonderlijke modellen of dure API-aanroepen vereisten, kunnen nu via een enkel goedkoop endpoint worden uitgevoerd.

Waar het past in Google's modelassortiment

Google's Gemini 3-familie bestrijkt nu een breed spectrum: Flash-Lite voor kostengevoelig werk op hoog volume, Flash voor gebalanceerde prestaties en Pro voor maximale capaciteit. Elke laag bedient verschillende productievereisten, en de instelbare denkfunctie vervaagt de grenzen ertussen door een goedkoper model hardere taken te laten afhandelen wanneer dat nodig is.

De competitieve implicatie is duidelijk. De ondergrens voor wat een budget-AI-model kan leveren blijft stijgen. Taken die zes maanden geleden een frontier-model vereisten, kunnen nu worden afgehandeld door een model dat een fractie van de prijs kost, op hogere snelheid, met vergelijkbare of betere nauwkeurigheid. Voor iedereen die AI-aangedreven producten bouwt, zijn de economische verhoudingen opnieuw verschoven.

Related Articles