Executive Summary
Mit Gemma 4 steht ab sofort ein offenes KI-Modell zur Verfügung, das trotz vergleichsweise kompakter Größe ein Leistungsniveau erreicht, das bislang vor allem sehr großen Modellen vorbehalten war. Genau das macht Gemma 4 für den produktiven Unternehmenseinsatz so interessant: hohe Intelligenz pro Parameter, starke Reasoning-Fähigkeiten und zugleich eine Infrastruktur, die wirtschaftlich und lokal beherrschbar bleibt.
Für unsere Nova ist das ein strategischer Vorteil. Wir können moderne KI-Fähigkeiten deutlich schneller in reale Kundensysteme überführen, ohne dafür zwangsläufig überdimensionierte Hardware oder rein cloudbasierte Setups zu benötigen. Gerade in quantisierten Varianten wird Gemma 4 so effizient, dass leistungsfähige lokale Installationen auf überschaubarer Hardware realistisch werden — bis hin zu Szenarien mit mehreren parallelen Nutzern.
Besonders relevant ist dabei, dass Gemma 4 nicht nur kompakt, sondern zugleich architektonisch hochoptimiert ist. Die starke Elo-Performance zeigt, dass heute nicht mehr die reine Modellgröße entscheidet, sondern die Qualität der Architektur, des Trainings und des Post-Trainings. Für Unternehmen bedeutet das: mehr Leistung, bessere Wirtschaftlichkeit und schnellere Umsetzbarkeit.
Für unsere Kunden eröffnet das neue Möglichkeiten im Bereich lokaler KI, On-Prem-Lösungen, Wissenssysteme, Assistenten und agentischer Workflows. Nova kann diese Entwicklung sehr schnell adaptieren und in belastbare, datenschutzfreundliche und praxisnahe Lösungen übersetzen. Genau darin liegt unser Mehrwert als Dienstleister: Frontier-nahe KI in einem Format, das im Alltag tatsächlich einsetzbar ist.
Gemma 4 auf NEOs Quantum Nova: Warum ein kompaktes Open Model plötzlich Frontier-Niveau erreicht
Google hat Gemma 4 heute veröffentlicht und positioniert die neue Modellfamilie selbst als ihre bislang intelligentesten offenen Modelle. Genau das ist für den Markt entscheidend: Nicht die größte Parameterzahl gewinnt, sondern die höchste Intelligenz pro Parameter. Und genau dort setzt Gemma 4 ein deutliches Zeichen. Google nennt die Modelle „purpose-built for advanced reasoning and agentic workflows“, veröffentlicht sie unter Apache 2.0 und zeigt zugleich, dass insbesondere das 31B- und das 26B-A4B-Modell im Open-Model-Feld ganz vorne mitspielen.
Gemma4:31B ist performant wie viel größere Modelle
Die zugrunde liegende Grafik macht den Punkt sehr klar: Gemma 4 sitzt nicht deshalb oben, weil es riesig ist, sondern weil es für seine Größe außergewöhnlich stark performt. Google schreibt selbst, dass das 31B-Modell aktuell Platz 3 unter den Open Models auf dem Arena-AI-Text-Leaderboard belegt und das 26B-A4B-Modell Platz 6. Noch bemerkenswerter ist die Einordnung dahinter: Gemma 4 schlägt dort offene Modelle, die laut Google bis zu 20-mal größer sind. Genau das ist der Moment, in dem man sachlich von einem Frontier-Modell sprechen kann — zumindest im Open-Model-Segment und insbesondere unter lokal betreibbaren Systemen.
Warum ist das so bemerkenswert?
Weil Gemma 4 architektonisch nicht einfach ein »kleineres LLM« ist, sondern ein sehr gezielt optimiertes System. Die Modellkarte beschreibt eine hybride Attention-Architektur mit lokalem Sliding-Window und globaler Attention, dazu p‑RoPE und optimierte Key/Value-Mechanismen für lange Kontexte. Das 26B-A4B-Modell ist außerdem ein Mixture-of-Experts-Modell mit 25,2 Milliarden Gesamtparametern, aber nur 3,8 Milliarden aktiven Parametern pro Token. Es aktiviert also nur den relevanten Teil des Netzes und erreicht dadurch eine für seine Klasse außergewöhnliche Effizienz. Gleichzeitig unterstützt Gemma 4 bis zu 256K Kontext, native Function Calling, System Prompts, multimodale Eingaben und Training auf über 140 Sprachen. Frontier-Niveau entsteht hier also nicht durch rohe Masse, sondern durch sehr gute Architektur, sehr gutes Routing und starkes Post-Training.
Auswertung der Benchmarks
Die Benchmarks stützen dieses Bild. In der offiziellen Modellkarte erreicht Gemma 4 31B unter anderem 85,2 Prozent auf MMLU Pro, 89,2 Prozent bei AIME 2026 ohne Tools und 80,0 Prozent auf LiveCodeBench v6. Selbst das 26B-A4B-Modell liegt mit 82,6 Prozent auf MMLU Pro, 88,3 Prozent bei AIME 2026 und 77,1 Prozent auf LiveCodeBench sehr nahe dran. Das sind keine Werte eines „ganz ordentlichen kleinen Modells“, sondern Werte, die zeigen, dass hier ernsthafte Reasoning- und Coding-Fähigkeiten in ein viel besser deploybares Format gebracht wurden.
Vergleich mit einem bekannten Platzhirsch
Gerade im Vergleich zu gpt-oss-120b wird sichtbar, warum rohe Modellgröße allein kein guter Leistungsindikator mehr ist. OpenAI gibt für gpt-oss-120b 117 Milliarden Gesamtparameter und 5,1 Milliarden aktive Parameter pro Token an. Das Modell nutzt ebenfalls MoE, basiert architektonisch aber laut OpenAI auf einem GPT-2-/GPT-3-artigen Transformer mit alternierenden dichten und lokal bandbegrenzten Sparse-Attention-Mustern. Hinzu kommt: gpt-oss wurde auf einem überwiegend englischen, text-only Datensatz trainiert und unterstützt nativ bis zu 128K Kontext. Gemma 4 bringt dagegen einen neueren, Gemini-3-abgeleiteten Stack, 256K Kontext bei den mittleren Modellen, native Agentic-Fähigkeiten und multimodale Fähigkeiten mit. Deshalb ist es absolut plausibel, dass Gemma 4 in einem Arena-Elo-Vergleich trotz kleinerem Footprint und trotz lokaler Quantisierung höher landet: Die Qualität kommt nicht aus der bloßen Zahl der Parameter, sondern aus der Kombination aus Architektur, Trainingsdaten, Post-Training und effizient aktivierten Parametern.
Inferenz auf leistbaren Systemen
Auch auf der Infrastrukturseite ist die Nachricht exzellent. Google nennt für Gemma 4 31B einen ungefähren Inferenzspeicherbedarf von 58,3 GB in BF16, 30,4 GB in 8‑Bit und 17,4 GB in Q4_0. Für Gemma 4 26B A4B nennt Google 48 GB in BF16, 25 GB in 8‑Bit und 15,6 GB in Q4_0. OpenAI nennt für gpt-oss-120b eine Checkpoint-Größe von 60,8 GiB nach MXFP4-Quantisierung. Das ist kein perfekter 1:1‑Vergleich, weil hier Inferenzspeicher und dort Checkpoint-Größe gegenüberstehen. Die Größenordnung zeigt aber trotzdem sehr deutlich, wie viel kompakter Gemma 4 in der Praxis deploybar ist. Genau deshalb rücken produktive lokale Setups auf 32-GB-Karten realistisch in Reichweite, und auf 80 GB VRAM wird aus „lokaler KI“ kein Experiment mehr, sondern ein belastbarer Mehrbenutzerbetrieb.
Selbst betreiben ist möglich!
Für unsere NOVA ist das strategisch ein starkes Signal. Wenn ein Modell dieser Leistungsklasse in 4‑Bit oder 8‑Bit auf überschaubarer Hardware sauber läuft, dann können wir nicht nur Demos zeigen, sondern produktive Kundensysteme bauen: lokal, schnell, datenschutzfreundlich und mit deutlich besser kalkulierbaren Betriebskosten. Bei vernünftig gesetzten Kontextgrenzen und einem guten Serving-Stack ist damit auf 80 GB VRAM auch echte Parallelität erreichbar, und auf 32 GB VRAM wird das Thema erstmals für deutlich mehr Kunden und Geräteklassen wirtschaftlich interessant. Diese operative Nähe zwischen Frontier-Leistung und realer Infrastruktur ist der eigentliche Durchbruch.
Wirklich stark — und das auch lokal!
Für unsere Kunden bedeutet das noch etwas anderes: Wir müssen nicht mehr zwischen „wirklich stark“ und „wirklich lokal betreibbar“ wählen. Gemma 4 verkürzt genau diese Lücke. Weil die Modelle offen, kommerziell nutzbar und zugleich agentenfähig sind, können wir sehr schnell branchenspezifische Lösungen adaptieren — vom internen Wissenssystem über lokale Assistenten bis hin zu spezialisierten Unternehmensagenten mit Tool-Nutzung, RAG und On-Prem-Betrieb. Das macht uns als Dienstleister nicht nur schneller, sondern vor allem relevanter: Wir bringen Frontier-Fähigkeiten in ein Format, das im Mittelstand und in regulierten Umgebungen tatsächlich umsetzbar ist.
Fazit
Gemma 4 ist nicht deshalb spannend, weil es neu ist. Es ist spannend, weil es zeigt, wohin sich der Markt bewegt: weg von der bloßen Jagd nach immer größeren Modellen, hin zu:
- besserer Intelligenz pro Parameter,
- besserer lokaler Einsetzbarkeit
- und schnellerer wirtschaftlicher Nutzbarkeit.
Genau deshalb ist Gemma 4 ein echtes Frontier-Modell im relevanten Sinn: nicht als größtes Modell am Markt, sondern als eines der derzeit stärksten offen verfügbaren Modelle pro Größe, pro Speicherbedarf und pro realer Einsetzbarkeit.
Persönliches Gespräch gefällig?
Autor
Prof. Dr. Alexander Lutz, Professor für Big Data und KI an der FOM München, Doktor der Humangenetik und Anthropologie, ehemaliger Onlinespiele-Designer und natürlich Gründer und Inhaber der Agentur Die NEOs. Neben den Themen der künstlichen Intelligenz und deren Einsatzmöglichkeiten in der Praxis konzentriert sich Alexander auf die Kundenkommunikation. Neue Problemfelder oder technische Innovationen bereitet er so auf, dass der Nutzen für unsere Kunden deutlich wird. Er schläft zeitverantwortlich und agiert schnell, sein Motto: “Tue es, oder tue es nicht. Es gibt kein Versuchen.”



