Exe­cu­ti­ve Summary

Mit Gem­ma 4 steht ab sofort ein offe­nes KI-Modell zur Ver­fü­gung, das trotz ver­gleichs­wei­se kom­pak­ter Grö­ße ein Leis­tungs­ni­veau erreicht, das bis­lang vor allem sehr gro­ßen Model­len vor­be­hal­ten war. Genau das macht Gem­ma 4 für den pro­duk­ti­ven Unter­neh­mens­ein­satz so inter­es­sant: hohe Intel­li­genz pro Para­me­ter, star­ke Reaso­ning-Fähig­kei­ten und zugleich eine Infra­struk­tur, die wirt­schaft­lich und lokal beherrsch­bar bleibt.

Für unse­re Nova ist das ein stra­te­gi­scher Vor­teil. Wir kön­nen moder­ne KI-Fähig­kei­ten deut­lich schnel­ler in rea­le Kun­den­sys­te­me über­füh­ren, ohne dafür zwangs­läu­fig über­di­men­sio­nier­te Hard­ware oder rein cloud­ba­sier­te Set­ups zu benö­ti­gen. Gera­de in quan­ti­sier­ten Vari­an­ten wird Gem­ma 4 so effi­zi­ent, dass leis­tungs­fä­hi­ge loka­le Instal­la­tio­nen auf über­schau­ba­rer Hard­ware rea­lis­tisch wer­den — bis hin zu Sze­na­ri­en mit meh­re­ren par­al­le­len Nutzern.

Beson­ders rele­vant ist dabei, dass Gem­ma 4 nicht nur kom­pakt, son­dern zugleich archi­tek­to­nisch hoch­op­ti­miert ist. Die star­ke Elo-Per­for­mance zeigt, dass heu­te nicht mehr die rei­ne Modell­grö­ße ent­schei­det, son­dern die Qua­li­tät der Archi­tek­tur, des Trai­nings und des Post-Trai­nings. Für Unter­neh­men bedeu­tet das: mehr Leis­tung, bes­se­re Wirt­schaft­lich­keit und schnel­le­re Umsetzbarkeit.

Für unse­re Kun­den eröff­net das neue Mög­lich­kei­ten im Bereich loka­ler KI, On-Prem-Lösun­gen, Wis­sens­sys­te­me, Assis­ten­ten und agen­ti­scher Work­flows. Nova kann die­se Ent­wick­lung sehr schnell adap­tie­ren und in belast­ba­re, daten­schutz­freund­li­che und pra­xis­na­he Lösun­gen über­set­zen. Genau dar­in liegt unser Mehr­wert als Dienst­leis­ter: Fron­tier-nahe KI in einem For­mat, das im All­tag tat­säch­lich ein­setz­bar ist.

Jeder will ein Stück vom KI Kuchen
Reddit Reddit

Gem­ma 4 auf NEOs Quan­tum Nova: War­um ein kom­pak­tes Open Model plötz­lich Fron­tier-Niveau erreicht

Google hat Gem­ma 4 heu­te ver­öf­fent­licht und posi­tio­niert die neue Modell­fa­mi­lie selbst als ihre bis­lang intel­li­gen­tes­ten offe­nen Model­le. Genau das ist für den Markt ent­schei­dend: Nicht die größ­te Para­me­ter­zahl gewinnt, son­dern die höchs­te Intel­li­genz pro Para­me­ter. Und genau dort setzt Gem­ma 4 ein deut­li­ches Zei­chen. Google nennt die Model­le „pur­po­se-built for advan­ced reaso­ning and agen­tic work­flows“, ver­öf­fent­licht sie unter Apa­che 2.0 und zeigt zugleich, dass ins­be­son­de­re das 31B- und das 26B-A4B-Modell im Open-Model-Feld ganz vor­ne mitspielen.

Gemma4:31B ist per­for­mant wie viel grö­ße­re Modelle

Die zugrun­de lie­gen­de Gra­fik macht den Punkt sehr klar: Gem­ma 4 sitzt nicht des­halb oben, weil es rie­sig ist, son­dern weil es für sei­ne Grö­ße außer­ge­wöhn­lich stark per­formt. Google schreibt selbst, dass das 31B-Modell aktu­ell Platz 3 unter den Open Models auf dem Are­na-AI-Text-Lea­der­board belegt und das 26B-A4B-Modell Platz 6. Noch bemer­kens­wer­ter ist die Ein­ord­nung dahin­ter: Gem­ma 4 schlägt dort offe­ne Model­le, die laut Google bis zu 20-mal grö­ßer sind. Genau das ist der Moment, in dem man sach­lich von einem Fron­tier-Modell spre­chen kann — zumin­dest im Open-Model-Seg­ment und ins­be­son­de­re unter lokal betreib­ba­ren Systemen.

War­um ist das so bemerkenswert?

Weil Gem­ma 4 archi­tek­to­nisch nicht ein­fach ein »klei­ne­res LLM« ist, son­dern ein sehr gezielt opti­mier­tes Sys­tem. Die Modell­kar­te beschreibt eine hybri­de Atten­ti­on-Archi­tek­tur mit loka­lem Sli­ding-Win­dow und glo­ba­ler Atten­ti­on, dazu p‑RoPE und opti­mier­te Key­/Va­lue-Mecha­nis­men für lan­ge Kon­tex­te. Das 26B-A4B-Modell ist außer­dem ein Mix­tu­re-of-Experts-Modell mit 25,2 Mil­li­ar­den Gesamt­pa­ra­me­tern, aber nur 3,8 Mil­li­ar­den akti­ven Para­me­tern pro Token. Es akti­viert also nur den rele­van­ten Teil des Net­zes und erreicht dadurch eine für sei­ne Klas­se außer­ge­wöhn­li­che Effi­zi­enz. Gleich­zei­tig unter­stützt Gem­ma 4 bis zu 256K Kon­text, nati­ve Func­tion Cal­ling, Sys­tem Prompts, mul­ti­mo­da­le Ein­ga­ben und Trai­ning auf über 140 Spra­chen. Fron­tier-Niveau ent­steht hier also nicht durch rohe Mas­se, son­dern durch sehr gute Archi­tek­tur, sehr gutes Rou­ting und star­kes Post-Training.

Aus­wer­tung der Benchmarks

Die Bench­marks stüt­zen die­ses Bild. In der offi­zi­el­len Modell­kar­te erreicht Gem­ma 4 31B unter ande­rem 85,2 Pro­zent auf MMLU Pro, 89,2 Pro­zent bei AIME 2026 ohne Tools und 80,0 Pro­zent auf Live­Code­Bench v6. Selbst das 26B-A4B-Modell liegt mit 82,6 Pro­zent auf MMLU Pro, 88,3 Pro­zent bei AIME 2026 und 77,1 Pro­zent auf Live­Code­Bench sehr nahe dran. Das sind kei­ne Wer­te eines „ganz ordent­li­chen klei­nen Modells“, son­dern Wer­te, die zei­gen, dass hier ernst­haf­te Reaso­ning- und Coding-Fähig­kei­ten in ein viel bes­ser deploy­ba­res For­mat gebracht wurden.

Ver­gleich mit einem bekann­ten Platzhirsch

Gera­de im Ver­gleich zu gpt-oss-120b wird sicht­bar, war­um rohe Modell­grö­ße allein kein guter Leis­tungs­in­di­ka­tor mehr ist. Ope­nAI gibt für gpt-oss-120b 117 Mil­li­ar­den Gesamt­pa­ra­me­ter und 5,1 Mil­li­ar­den akti­ve Para­me­ter pro Token an. Das Modell nutzt eben­falls MoE, basiert archi­tek­to­nisch aber laut Ope­nAI auf einem GPT-2-/GPT-3-arti­gen Trans­for­mer mit alter­nie­ren­den dich­ten und lokal band­be­grenz­ten Spar­se-Atten­ti­on-Mus­tern. Hin­zu kommt: gpt-oss wur­de auf einem über­wie­gend eng­li­schen, text-only Daten­satz trai­niert und unter­stützt nativ bis zu 128K Kon­text. Gem­ma 4 bringt dage­gen einen neue­ren, Gemi­ni-3-abge­lei­te­ten Stack, 256K Kon­text bei den mitt­le­ren Model­len, nati­ve Agen­tic-Fähig­kei­ten und mul­ti­mo­da­le Fähig­kei­ten mit. Des­halb ist es abso­lut plau­si­bel, dass Gem­ma 4 in einem Are­na-Elo-Ver­gleich trotz klei­ne­rem Foot­print und trotz loka­ler Quan­ti­sie­rung höher lan­det: Die Qua­li­tät kommt nicht aus der blo­ßen Zahl der Para­me­ter, son­dern aus der Kom­bi­na­ti­on aus Archi­tek­tur, Trai­nings­da­ten, Post-Trai­ning und effi­zi­ent akti­vier­ten Parametern.

Infe­renz auf leist­ba­ren Systemen

Auch auf der Infra­struk­tur­sei­te ist die Nach­richt exzel­lent. Google nennt für Gem­ma 4 31B einen unge­fäh­ren Infe­renz­spei­cher­be­darf von 58,3 GB in BF16, 30,4 GB in 8‑Bit und 17,4 GB in Q4_0. Für Gem­ma 4 26B A4B nennt Google 48 GB in BF16, 25 GB in 8‑Bit und 15,6 GB in Q4_0. Ope­nAI nennt für gpt-oss-120b eine Check­point-Grö­ße von 60,8 GiB nach MXFP4-Quan­ti­sie­rung. Das ist kein per­fek­ter 1:1‑Vergleich, weil hier Infe­renz­spei­cher und dort Check­point-Grö­ße gegen­über­ste­hen. Die Grö­ßen­ord­nung zeigt aber trotz­dem sehr deut­lich, wie viel kom­pak­ter Gem­ma 4 in der Pra­xis deploy­bar ist. Genau des­halb rücken pro­duk­ti­ve loka­le Set­ups auf 32-GB-Kar­ten rea­lis­tisch in Reich­wei­te, und auf 80 GB VRAM wird aus „loka­ler KI“ kein Expe­ri­ment mehr, son­dern ein belast­ba­rer Mehrbenutzerbetrieb.

Selbst betrei­ben ist möglich!

Für unse­re NOVA ist das stra­te­gisch ein star­kes Signal. Wenn ein Modell die­ser Leis­tungs­klas­se in 4‑Bit oder 8‑Bit auf über­schau­ba­rer Hard­ware sau­ber läuft, dann kön­nen wir nicht nur Demos zei­gen, son­dern pro­duk­ti­ve Kun­den­sys­te­me bau­en: lokal, schnell, daten­schutz­freund­lich und mit deut­lich bes­ser kal­ku­lier­ba­ren Betriebs­kos­ten. Bei ver­nünf­tig gesetz­ten Kon­text­gren­zen und einem guten Ser­ving-Stack ist damit auf 80 GB VRAM auch ech­te Par­al­le­li­tät erreich­bar, und auf 32 GB VRAM wird das The­ma erst­mals für deut­lich mehr Kun­den und Gerä­te­klas­sen wirt­schaft­lich inter­es­sant. Die­se ope­ra­ti­ve Nähe zwi­schen Fron­tier-Leis­tung und rea­ler Infra­struk­tur ist der eigent­li­che Durchbruch.

Wirk­lich stark — und das auch lokal!

Für unse­re Kun­den bedeu­tet das noch etwas ande­res: Wir müs­sen nicht mehr zwi­schen „wirk­lich stark“ und „wirk­lich lokal betreib­bar“ wäh­len. Gem­ma 4 ver­kürzt genau die­se Lücke. Weil die Model­le offen, kom­mer­zi­ell nutz­bar und zugleich agen­ten­fä­hig sind, kön­nen wir sehr schnell bran­chen­spe­zi­fi­sche Lösun­gen adap­tie­ren — vom inter­nen Wis­sens­sys­tem über loka­le Assis­ten­ten bis hin zu spe­zia­li­sier­ten Unter­neh­mens­agen­ten mit Tool-Nut­zung, RAG und On-Prem-Betrieb. Das macht uns als Dienst­leis­ter nicht nur schnel­ler, son­dern vor allem rele­van­ter: Wir brin­gen Fron­tier-Fähig­kei­ten in ein For­mat, das im Mit­tel­stand und in regu­lier­ten Umge­bun­gen tat­säch­lich umsetz­bar ist.

Fazit

Gem­ma 4 ist nicht des­halb span­nend, weil es neu ist. Es ist span­nend, weil es zeigt, wohin sich der Markt bewegt: weg von der blo­ßen Jagd nach immer grö­ße­ren Model­len, hin zu:

  1. bes­se­rer Intel­li­genz pro Para­me­ter,
  2. bes­se­rer loka­ler Einsetzbarkeit
  3. und schnel­le­rer wirt­schaft­li­cher Nutzbarkeit.

Genau des­halb ist Gem­ma 4 ein ech­tes Fron­tier-Modell im rele­van­ten Sinn: nicht als größ­tes Modell am Markt, son­dern als eines der der­zeit stärks­ten offen ver­füg­ba­ren Model­le pro Grö­ße, pro Spei­cher­be­darf und pro rea­ler Einsetzbarkeit.

Per­sön­li­ches Gespräch gefällig?

Professor Doktor Alexander Lutz

Autor

Prof. Dr. Alex­an­der Lutz, Pro­fes­sor für Big Data und KI an der FOM Mün­chen, Dok­tor der Human­ge­ne­tik und Anthro­po­lo­gie, ehe­ma­li­ger Online­spie­le-Desi­gner und natür­lich Grün­der und Inha­ber der Agen­tur Die NEOs. Neben den The­men der künst­li­chen Intel­li­genz und deren Ein­satz­mög­lich­kei­ten in der Pra­xis kon­zen­triert sich Alex­an­der auf die Kun­den­kom­mu­ni­ka­ti­on. Neue Pro­blem­fel­der oder tech­ni­sche Inno­va­tio­nen berei­tet er so auf, dass der Nut­zen für unse­re Kun­den deut­lich wird. Er schläft zeit­ver­ant­wort­lich und agiert schnell, sein Mot­to: “Tue es, oder tue es nicht. Es gibt kein Ver­su­chen.”