En voksende gruppe utviklere ønsker AI-kodehjelp uten å måtte stole på kommersielle skytjenester. Nå finnes det en praktisk vei dit: Googles åpne Gemma 4-familie kombinert med kodingsagent-verktøyet OpenCode gir et fungerende oppsett som kjører helt lokalt – ifølge en gjennomgang publisert av Towards Data Science.

Hva er Gemma 4?

Gemma 4 er en serie åpenvekts-modeller fra Google, lansert i april 2026, med den nyeste 12B Unified-varianten tilgjengelig fra juni 2026. Modellene er eksplisitt bygget for lokal inferens og agentbaserte arbeidsflyter – inkludert kodehjelp.

Familien støtter multimodale innganger: tekst, bilder og video på tvers av alle størrelser. De tre minste variantene (E2B, E4B og 12B) håndterer i tillegg lydinndata. 12B Unified-modellen er spesielt bemerkelsesverdig fordi den prosesserer bilder og lyd direkte gjennom språkryggraden, uten separate enkodere.

Bygg din egen AI-kodingsagent lokalt – uten sky og uten kostnad - Bilde 1

Fra Ollama til OpenCode – slik fungerer oppsettet

Guiden fra Towards Data Science beskriver prosessen trinn for trinn: man starter med å installere Ollama, et verktøy som gjør det enkelt å laste ned og kjøre store språkmodeller lokalt. Deretter hentes ønsket Gemma 4-variant ned, og OpenCode konfigureres til å bruke den lokale modellen som motor.

Resultatet er en kodingsagent som kan lese filer, foreslå endringer, skrive tester og navigere i kodeprosjekter – alt uten internettforbindelse etter at modellen er lastet ned.

Gemma 4 excels at reasoning, coding, tool use, long-context and agentic workflows, and multimodal tasks.

Hvilken hardware trengs?

Hardwarekravene varierer kraftig med modellstørrelse og kvantiseringsnivå. Med 4-bits kvantisering (GGUF Q4-format) er kravene betydelig lavere enn ved full presisjon.

4 GB
VRAM for E2B (Q4)
125 tok/s
RTX 3090 på E4B-modellen

For dem som ikke har en dedikert GPU, er CPU-kjøring mulig, men ifølge forskningsnotater er dette typisk fem til ti ganger tregere. Et system med åttekjernet prosessor og 16 GB RAM kan kjøre E4B-modellen, men for daglig bruk anbefales 16 kjerner, 32 GB RAM og AVX-512-støtte.

Apple Silicon-maskiner med M-serien peker seg ut som et godt alternativ: Mac-er med 16–32 GB unified memory håndterer de mindre variantene uten problemer, mens 26B MoE krever minst 32 GB.

RTX 3090 – et kostnadseffektivt valg?

IFølge tekniske vurderinger gjengitt av Towards Data Science fremstår et brukt RTX 3090-kort (24 GB VRAM) som et særlig interessant alternativ for dem som vil kjøre 26B MoE-modellen. Kortet skal kunne levere over 115 tokens per sekund på denne modellen, og hevdes å gi rundt 95 prosent av ytelsen til profesjonelt utstyr til en langt lavere pris. Det er verdt å merke seg at dette er tall fra produsentoptimistiske kilder, og ytelse vil variere med system og konfigurasjon.

NVIDIA og Google skal ifølge de samme kildene ha samarbeidet om dag-null-optimaliseringer for RTX-kort. En teknologi kalt Multi-Tensor Pipelining (MTP) skal dessuten kunne øke inferenshastigheten med 1,4 til 2,2 ganger uten tap av nøyaktighet.

Personvern som kjøreargument

Lokal AI-kjøring betyr at koden din aldri forlater maskinen din.

For mange utviklere – særlig de som jobber med proprietær kode eller sensitive systemer – er dette den viktigste fordelen. Verken Gemma 4-modellen eller OpenCode sender data til eksterne servere under selve kodingsseksjonen. Dataen forblir på brukerens egen maskin.

Det gjør oppsettet til et reelt alternativ for bedrifter og individer som ønsker AI-assistert koding, men ikke kan eller vil dele kodebasen sin med tredjeparter.

Verdt å prøve?

For utviklere med tilstrekkelig hardware er terskelen lav. Ollama er gratis og åpen kildekode, Gemma 4-modellene er fritt tilgjengelige, og OpenCode er designet for nettopp dette bruksområdet. Guiden fra Towards Data Science tar deg gjennom hele prosessen fra installasjon til fungerende agent.