Google DeepMind har sluppet en ny åpen modell som tar sikte på å gjøre avansert multimodal AI tilgjengelig direkte på vanlige forbrukermaskiner. Gemma 4 12B ble offisielt lansert 3. juni 2026, og skiller seg teknisk fra de fleste konkurrenter ved å droppe separate enkodere for lyd og bilde til fordel for en samlet, encoder-fri arkitektur.
Hva gjør arkitekturen spesiell?
De fleste multimodale modeller er bygd rundt separate enkodere – dedikerte moduler for å tolke bilder og lyd – som kan telle mellom 150 og 550 millioner parametere for visjon og ytterligere 300 millioner for lyd. Gemma 4 12B erstatter dette med lette innbyggingsmoduler som projiserer rådata direkte inn i samme dimensjonsrom som teksttokens.
For bilder betyr det at 48×48 piksel-patcher prosesseres med én enkelt matrisemultiplikasjon. For lyd projiseres råsignalet direkte uten mellomliggende enkodersteg. Ifølge Google DeepMind reduserer dette både latens og minnebruk sammenlignet med tradisjonelle oppsett.
Gemma 4 12B er ikke bare en inkrementell oppdatering – det er Googles mal for å bringe reell multimodal kapasitet til lokale enheter

Spesifikasjoner og tilgjengelighet
Modellen har 11,95 milliarder parametere fordelt på 48 lag, et kontekstvindu på 256 000 tokens og et vokabular på 262 000 tokens. Den benytter et glidende oppmerksomhetsvindu på 1 024 tokens. Modellen er tilgjengelig i både pre-trent og instruksjonstunet variant under Apache 2.0-lisensen, noe som gir fri bruk, modifisering og kommersiell utnyttelse.
Ytelse opp mot konkurrentene
Ifølge Google DeepMinds egne benchmarks leverer Gemma 4 12B resultater som nærmer seg den betydelig større Gemma 4 26B MoE-modellen på standardtester, men med under halvparten av minnefotavtrykket. På benchmarks som DocVQA er gapet lite, mens modellen sakker mer etter på kodeoppgaver og MMLU Pro.
Sammenlignet med forgjengeren Gemma 3 27B – som er større – vinner 12B-modellen konsekvent, noe som tyder på et generasjonsskifte i effektivitet.
Opp mot konkurrerende åpne modeller er bildet mer nyansert. Sammenlignet med Alibabas Qwen 3.6 27B er inferenshastigheten klart bedre: rundt 58 tokens per sekund mot Qwens 32. Likevel presterer Qwen 3.6 27B bedre på kodeoppgaver, oversettelse og generell tekstkvalitet i praktiske brukssituasjoner, ifølge community-benchmarks gjengitt i forskningsmaterialet.
Et par benchmarks antyder at Gemma 4 12B faktisk taper for Qwen 2.5 9B på fem av åtte oppgaver – en modell med langt færre parametere.
Langt bak frontier-agentene
Tross innovativ arkitektur er det verdt å merke seg at Gemma 4 12B – og til og med den større Gemma 4 31B – rangerer langt bak ledende frontier-modeller på Arena.AIs leaderboard. Gemma 4 31B er rangert på plass 39, og Gemma 4 26B A4B på plass 57. Modeller som Anthropics Claude Opus 4 befinner seg på et betydelig høyere nivå.
Dette understreker at Google DeepMinds prioritering med Gemma 4 12B handler om lokal deployerbarhet og effektivitet – ikke om å konkurrere i toppsjiktet av ytelse.
Hvem er modellen ment for?
Olivier Lacombe og Gus Martins fra Google DeepMind beskriver modellen som designet for å bringe «høyytelsesbasert multimodal intelligens direkte til laptopen din». Evnen til å kjøre lokalt gjør den særlig relevant for bruksområder der personvern er sentralt, eller der nettilgang er begrenset.
Kilden fra Analytics Vidhya karakteriserer 12B-modellen som «Googles mal for lokalt multimodal AI» – et strategisk valg som vektlegger tilgjengelighet for utviklere og hobbyister over rå ytelse i cloud-miljøer.
Modellen er tilgjengelig nå via Google DeepMinds offisielle kanaler og åpne distribusjonsplattformer.
