Åpen kildekode-AI er blitt ett av de viktigste slagordene i teknologibransjen — men hva betyr det egentlig? Begrepet dekker over et bredt spekter av praksiser, fra modeller der man kun får tilgang til ferdigtrente parametre, til systemer der treningsdata, kode og oppskrifter er fullstendig tilgjengelige for ettersyn og videre utvikling. Skillet har store konsekvenser for hva man faktisk kan gjøre med modellene — og for hvem som virkelig kontrollerer dem.

Åpne vekter versus ekte open source

Den vanligste formen for «åpen» AI i dag er det som teknisk sett kalles åpne vekter («open weights»). Det betyr at modellens treningsparametre — de numeriske verdiene som representerer det modellen har lært — er offentlig tilgjengelige og kan lastes ned fritt. Man kan kjøre modellen lokalt, finjustere den på egne data og distribuere tilpassede versjoner. Det man ikke nødvendigvis får, er treningsdataene modellen er bygget på, den fullstendige koden som ble brukt under trening, eller de spesifikke hyperparametrene og oppskriftene som førte til sluttresultatet.

Ekte open source AI stiller høyere krav. Ifølge Open Source Initiative (OSI) skal en person med relevant kompetanse kunne gjenskape et tilsvarende system ved hjelp av de tilgjengelige ressursene. Det krever tilgang til treningsdata, full kildekode og detaljert dokumentasjon av treningsprosessen — ikke bare de ferdige vektene.

28. okt 2024
OSAID 1.0 lansert av OSI
671B
Parametre i DeepSeek-V3 (åpne vekter)
9,3 billion
Tokens i OLMo 3s Dolma-treningssett

OSIs definisjon — OSAID 1.0

Open Source Initiative lanserte 28. oktober 2024 den første offisielle definisjonen av open source AI — kalt Open Source AI Definition (OSAID) versjon 1.0. Definisjonen ble til gjennom et år langt samarbeidsprosess med bidrag fra forskere, selskaper og sivilsamfunn over hele verden.

Kjernen i OSAID er fire friheter: retten til å bruke systemet til ethvert formål uten tillatelse, retten til å studere hvordan det fungerer og forstå resultatene, retten til å modifisere systemet for å endre output, og retten til å dele systemet med eller uten modifikasjoner. For å oppfylle alle fire krever OSAID at tilstrekkelig informasjon om treningsdata gjøres tilgjengelig slik at en kompetent person kan gjenskape et tilsvarende system.

Ledende åpne modeller i 2024–2026

Til tross for at mange ikke passerer OSIs definisjon fullt ut, har åpne vekter-modeller fått enorm utbredelse og driver mye av innovasjonen i bransjen. Her er de viktigste aktørene:

Meta — Llama-familien

Meta lanserte Llama 3 i april 2024 i størrelsene 8B og 70B parametre, med tilgang til modellene via Metas nettsted og Hugging Face. Llama 4, lansert i april 2025, videreførte strategien med åpne vekter under Metas egne lisensvilkår — en tilpasset «community license» som tillater kommersiell bruk, men som stiller krav om separat avtale for tjenester med over 700 millioner månedlige aktive brukere. Verken Free Software Foundation eller OSI anser Metas lisenser som ekte fri eller åpen kildekode, ettersom de inneholder bruksbegrensninger. Llama-modellene er likevel blant de mest nedlastede i verden og brukes som grunnlag for tusenvis av finjusterte varianter.

Mistral AI — Apache 2.0

Franske Mistral har konsekvent sluppet sine modeller under Apache 2.0-lisensen, en av de mest permissive åpne kildekode-lisensene som finnes. Mistral Large 3 — med 41 milliarder aktive parametre i en «Mixture of Experts»-arkitektur — ble sluppet under Apache 2.0 og er ifølge selskapet blant de beste åpent tilgjengelige modellene i verden. I mars 2026 fulgte Mistral Small 4 etter, med 119 milliarder parametre og støtte for bildeforståelse, også under Apache 2.0. Mistral er det naturlige europeiske alternativet for organisasjoner som ønsker åpen kildekode med vestlig opprinnelse.

DeepSeek — overraskelsen fra Kina

Det kinesiske selskapet DeepSeek skapte overskrifter i desember 2024 da DeepSeek-V3 ble lansert — en enorm «Mixture of Experts»-modell med 671 milliarder totale parametre og 37 milliarder aktive parametre per token. Modellen er tilgjengelig på Hugging Face med vekter og kode under en kombinasjon av MIT-lisens (kode) og Metas modellavtale-format. DeepSeek V3.2, som ble sluppet i 2025 under MIT-lisens, scorer 96 prosent på AIME 2025-referansetesten og koster brøkdelen av sammenlignbare proprietære modeller. Treningskostnaden på anslagsvis 6 millioner dollar — mot over 100 millioner for GPT-4 — utfordret antagelsene om at frontiermodeller krever enorme ressurser.

Alibaba Qwen — bredt spekter under Apache 2.0

Alibabas Qwen-familie spenner fra 0,6 til 235 milliarder parametre og er i de fleste varianter lisensiert under Apache 2.0. Qwen 3, lansert april 2025, inkluderer både tette og MoE-modeller og ble beskrevet som mer kapabel enn OpenAI o1 og DeepSeek R1 på flere referansetester. Qwen3-Omni er en fullstendig multimodal modell — tekst, kode, bilde og lyd — under Apache 2.0.

Google — Gemma 4 og Apache 2.0

Google lanserte Gemma i februar 2024 under en egenutviklet lisens. Med Gemma 4, annonsert 2. april 2026, la Google om til Apache 2.0 — en historisk endring som gjør modellene egnet for kommersiell bruk uten særlige restriksjoner. Gemma 4 spenner fra kantvennlige størrelser til 31 milliarder parametre, og er blitt lastet ned over 400 millioner ganger i alle Gemma-generasjoner samlet.

Genuint åpen AI gir tilgang til vekter, treningsdata, kode og mellomlagrede sjekkpunkter — slik at hvem som helst med nok ressurser kan gjenskape systemet fra grunnen av.

AI2 OLMo — den genuint åpne standarden

Allen Institute for AI (Ai2) representerer det tydeligste eksempelet på ekte åpenhet. OLMo 2, lansert november 2024 i 7B og 13B-varianter, og OLMo 3, lansert november 2025 i 7B og 32B-varianter, gir tilgang til alt: vekter, treningsdata (Dolma-korpuset med over 9 billioner tokens), kode, oppskrifter og mellomlagrede sjekkpunkter fra hele treningsforløpet. OlmoTrace-verktøyet gjør det til og med mulig å spore et gitt output tilbake til det konkrete treningsdokumentet som sannsynligvis påvirket det. OLMo passerer OSIs OSAID 1.0.

Lisenslandskapet

Lisensene i det åpne AI-landskapet varierer enormt og har direkte konsekvenser for hva man kan gjøre med modellene:

  • Apache 2.0 — brukt av Mistral, Qwen 3, Gemma 4 og mange andre. Tillater kommersiell bruk, distribusjon og modifikasjon uten begrensninger utover kreditering. OSI-godkjent.
  • MIT — brukt av DeepSeek-V3-0324 og nyere DeepSeek-varianter. Enda kortere og mer permissiv enn Apache 2.0. OSI-godkjent.
  • Metas Community License — egenutviklet lisens for Llama-familien. Tillater bred kommersiell bruk, men inkluderer bruksbegrensninger og restriksjoner for svært store tjenester. Ikke OSI-godkjent.
  • Egne forskningslisenser — brukt av mange modeller i akademia. Kan begrense kommersiell bruk, men tillater gjerne fri forskning.

Fordeler med åpne modeller

Åpne modeller gir brukere og organisasjoner kontroll som proprietære modeller ikke kan tilby:

  • Lokal kjøring og personvern: modellen kjøres på egen infrastruktur — ingen data sendes til tredjeparts servere. Dette er avgjørende for å overholde GDPR, særlig ved behandling av personopplysninger.
  • Finjustering: åpne vekter kan trenes videre på egne data, slik at man får en modell skreddersydd for eget domene — enten det er medisin, juss, norsk språk eller industriell kontroll.
  • Kostnad: etter initiell infrastrukturkostnad er marginalprisen per forespørsel langt lavere enn API-tjenester. For store volumer kan besparelsen være dramatisk.
  • Åpenhet og etterprøvbarhet: fullt åpne modeller som OLMo gjør det mulig å studere hvordan modellen påvirkes av treningsdata, avdekke skjevheter og gjøre uavhengige sikkerhetsanalyser.
  • Uavhengighet: man er ikke låst til én leverandørs API, prismodell eller tjenestevilkår.
Åpne modeller eliminerer nesten alle GDPR-bekymringer knyttet til overføring av personopplysninger til tredjeparter — fordi ingen data forlater din egen infrastruktur. For norske virksomheter som behandler sensitive opplysninger er dette en vesentlig fordel.

Risikoer og utfordringer

Åpne modeller medfører også risiko og ansvar som er annerledes enn ved bruk av proprietære API-tjenester:

  • Misbruk: når modellvekter er offentlige, kan de brukes til å fjerne sikkerhetstiltak eller finjustere modellen for skadelige formål. Åpenhet gjør det vanskeligere å håndheve acceptable use policies.
  • Driftsansvar: du eier infrastrukturen, og dermed også ansvaret for oppetid, sikkerhet, oppdateringer og kapasitet.
  • Ressurskrav: frontiermodeller krever betydelig GPU-kapasitet. DeepSeek-V3 med 671 milliarder parametre er utenfor rekkevidde for de fleste organisasjoner uten spesialisert infrastruktur, men mindre modeller (7B–32B) er tilgjengelige på ordinær bedriftshardware.
  • Uklare lisensvilkår: ikke-OSI-godkjente lisenser kan skape juridisk usikkerhet, særlig for kommersiell bruk. Bruk av Metas Llama-modeller i en global tjeneste med mange brukere krever nøye gjennomgang av vilkårene.
  • Manglende treningsoversikt: modeller som kun deler vekter gir ikke innsyn i hva modellen er trent på — noe som gjør det vanskelig å vurdere opphavsrettslig eksponering eller systematisk skjevhet.

Norsk relevans

For norske virksomheter og forskningsmiljøer er åpne modeller spesielt relevante av tre grunner. For det første muliggjør de lokal kjøring uten dataoverføring til amerikanske eller asiatiske skyplattformer — viktig for sektorer som helse, offentlig forvaltning og finans. For det andre kan norskspråklige data brukes til å finjustere modeller uten å overgi dataene til en ekstern leverandør. For det tredje gir de grunnlag for å bygge nasjonale norskspråklige modeller.

NORA (Norwegian AI Research Consortium) og partnere som Universitetet i Oslo, Nasjonalbiblioteket og den nasjonale superdatamaskininfrastrukturen Sigma2 har siden 2024 utviklet åpne norske modeller under betegnelsene NORA.LLM og NorLLM. Disse er tilgjengelige fra Hugging Face under åpne kildekode-lisenser og er trent på norsk tekst som respekterer opphavsretten. Schibsted, som deltok i NORA-samarbeidet, rapporterte at egentilpassede modeller basert på NORA.LLM ga bedre resultater enn generelle kommersielle modeller på norsk innhold.

Verktøy som Ollama gjør det enkelt å kjøre modeller som Llama, Mistral og Qwen direkte på lokal maskin eller server. For norske bedrifter som ønsker å eksperimentere med AI uten å sende data ut av egne systemer, er dette en praktisk og GDPR-vennlig inngang.