LLMs3. März 20264 min read

Google startet Gemini 3.1 Flash-Lite: Einstellbares Denken zu einem Achtel der Kosten von Pro

Google hat Gemini 3.1 Flash-Lite am 3. März 2026 veröffentlicht, verfügbar als Vorschau über die Gemini API. Es ist das schnellste und kosteneffizienteste Modell in Googles Aufstellung, entwickelt für Produktions-Workloads mit hohem Volumen, bei denen die Kosten pro Token genauso wichtig sind wie die Qualität.

Benchmark-Leistung

Obwohl es als Budget-Modell positioniert ist, liefert Flash-Lite starke Werte in Reasoning- und Wissens-Benchmarks. Es erreicht 86,9 % bei GPQA Diamond, einem Reasoning-Test auf Graduiertenniveau in den Naturwissenschaften. Es kommt auf 76,8 % bei MMMU Pro für multimodales Verständnis und 88,9 % bei MMMLU für mehrsprachige Fragenbeantwortung. Auf dem Arena.ai Leaderboard erzielte es einen Elo-Score von 1432.

Diese Werte übertreffen größere Gemini-Modelle früherer Generationen, einschließlich Gemini 2.5 Flash. Ein Modell, das einen Bruchteil seines Vorgängers kostet und ihn bei wichtigen Benchmarks übertrifft, stellt eine bedeutende Verschiebung in der Kosten-Leistungs-Kurve dar.

Einstellbare Denkstufen

Das markanteste Feature sind die einstellbaren Denkstufen. Verfügbar sowohl in AI Studio als auch in Vertex AI, können Entwickler auswählen, wie viel Reasoning das Modell auf jede Aufgabe anwendet. Niedrigere Denkstufen liefern schnellere, günstigere Antworten für unkomplizierte Anfragen. Höhere Stufen aktivieren tieferes Reasoning für komplexe Probleme.

Dies gibt Entwicklern granulare Kontrolle über den Geschwindigkeits-Kosten-Qualitäts-Kompromiss auf API-Ebene. Eine Content-Moderation-Pipeline, die Millionen von Nachrichten pro Tag verarbeitet, kann minimales Denken nutzen. Eine Code-Generierungsaufgabe, die sorgfältige Logik erfordert, kann maximales Denken nutzen. Dasselbe Modell bewältigt beides, wobei der Entwickler die passende Stufe pro Anfrage wählt.

Geschwindigkeit und Preisgestaltung

Flash-Lite läuft 2,5-mal schneller als Gemini 2.5 Flash. Google hat es mit 0,25 $ pro Million Eingabe-Tokens und 1,50 $ pro Million Ausgabe-Tokens bepreist, ungefähr ein Achtel der Kosten des Pro-Modells. Zu diesem Preispunkt wird es für Anwendungsfälle nutzbar, die zuvor zu teuer waren, um sie über ein Frontier-Modell laufen zu lassen.

Hochvolumige Übersetzung, Massen-Content-Moderation, Dokumentenklassifikation und Echtzeit-Chat-Anwendungen sind allesamt Workloads, bei denen die Kosten pro Token die primäre Einschränkung darstellen. Flash-Lite zielt direkt auf diese Szenarien ab.

Produktions-Anwendungsfälle

Google hebt mehrere beabsichtigte Anwendungen hervor: hochvolumige Übersetzung und Lokalisierung, Content-Moderation im großen Maßstab, UI- und Dashboard-Generierung, Simulationserstellung und komplexe Instruktionsbefolgung. Das Modell ist multimodal und verarbeitet Text, Bilder und strukturierte Daten.

Die Kombination aus niedrigen Kosten und starker mehrsprachiger Leistung (88,9 % MMMLU) macht es besonders relevant für Anwendungen, die ein globales Publikum bedienen. Lokalisierungs-Workflows, die zuvor separate Modelle oder teure API-Aufrufe erforderten, können jetzt über einen einzigen kostengünstigen Endpunkt laufen.

Wo es in Googles Modellreihe steht

Googles Gemini-3-Familie umfasst nun ein breites Spektrum: Flash-Lite für kostensensible Hochvolumen-Arbeit, Flash für ausgewogene Leistung und Pro für maximale Fähigkeit. Jede Stufe bedient unterschiedliche Produktionsanforderungen, und das Feature der einstellbaren Denkstufen verwischt die Grenzen zwischen ihnen, indem es einem günstigeren Modell ermöglicht, bei Bedarf schwierigere Aufgaben zu bewältigen.

Die wettbewerbliche Implikation ist klar. Die Untergrenze dessen, was ein Budget-KI-Modell leisten kann, steigt weiter. Aufgaben, die vor sechs Monaten ein Frontier-Modell erforderten, können jetzt von einem Modell bewältigt werden, das einen Bruchteil des Preises kostet, bei höherer Geschwindigkeit, mit vergleichbarer oder besserer Genauigkeit. Für jeden, der KI-gestützte Produkte entwickelt, haben sich die wirtschaftlichen Rahmenbedingungen erneut verschoben.

Genera

Google startet Gemini 3.1 Flash-Lite: Einstellbares Denken zu einem Achtel der Kosten von Pro

Benchmark-Leistung

Einstellbare Denkstufen

Geschwindigkeit und Preisgestaltung

Produktions-Anwendungsfälle

Wo es in Googles Modellreihe steht

Related Articles

OpenAI veröffentlicht GPT-5.3 Instant: 400K Kontext, 27 % weniger Halluzinationen, weniger Überablehnungen

Text-zu-Video-KI: Wie die Technologie wirklich funktioniert

Ein vollständiger Leitfaden zu KI-Bildgenerierungsstilen