Nasjonalbiblioteket sitter på en av Norges mest verdifulle dataskatter: en digital samling av bøker, aviser, tidsskrifter, lydopptak og bilder som spenner 200 år tilbake. Denne samlingen er ikke bare et kulturminne — den er treningsgrunnlaget for norske språkmodeller som ellers ikke ville kunne eksistert. NB AI-lab ble opprettet for å forvalte denne ressursen og gjøre den tilgjengelig for norsk forskning og samfunn gjennom åpne modeller og datasett.

Labens filosofi er enkel og tydelig: alt som utvikles, deles åpent. Modeller, treningsdata og kode publiseres under åpne lisenser på Hugging Face og GitHub. Med 37 ansatte og lokasjoner i Oslo og Mo i Rana opererer NB AI-lab i skjæringspunktet mellom kulturarvinstitusjoner og avansert KI-forskning — en posisjon få aktører i verden har.

66 000
Timer norsk tale i NB-Whisper-treningen
45 GB
Norsk tekst i Norwegian Colossal Corpus
17
Språkmodeller trent i Mímir-prosjektet

Norwegian Colossal Corpus — grunnmuren

Det hele startet med data. Før NB AI-lab kunne trene norske språkmodeller på nivå med internasjonale alternativer, måtte det bygges et treningsdatasett av tilstrekkelig størrelse og kvalitet. Resultatet ble Norwegian Colossal Corpus (NCC) — et åpent tekstkorpus på 45 GB med over 7 milliarder ord på bokmål og nynorsk.

NCC kombinerer materiale fra Nasjonalbibliotekets digitale samling med avisartikler, offentlige dokumenter, Wikipedia og nettekster. Alle delkorpora er grundig renset og standardisert til et felles format, noe som gjør det enkelt å bruke for forskere og utviklere. Korpuset er tilgjengelig gratis via Hugging Face og er i dag et av de viktigste fellesressursene for norsk og skandinavisk språkteknologi.

Til sammenligning: store globale modeller er typisk trent på engelske datasett med hundrevis av milliarder ord. For et lite språk som norsk er NCC uforholdsmessig verdifullt — og Nasjonalbibliotekets tilgang til historisk materiale gjør det mulig å fange norsk språk slik det faktisk har utviklet seg, ikke bare slik det ser ut på internett i dag.

NB-BERT: tekst-encoder for norsk

NB-BERT var NB AI-labs første store gjennombrudd. Modellen, utgitt i januar 2021, er en BERT-basert tekst-encoder trent fra grunnen av på norsk bokmål og nynorsk fra de siste 200 år. I motsetning til Googles flerspråklige BERT-modell, som deler parameterkapasitet mellom mange språk, er NB-BERT dedikert til norsk — og gir dermed vesentlig bedre resultater på norskspråklige oppgaver.

NB-BERT-base (0,2B parametere) og NB-BERT-large er tilgjengelige under CC-BY-4.0-lisens og brukes i dag av over 26 avledede modeller, inkludert fininnstilte varianter for navnegjenkjenning, sentimentanalyse og tekstklassifisering. Modellen laster ned rundt 3 900 ganger i måneden og drives fra Hugging Face med støtte for PyTorch, TensorFlow og JAX.

Vi deler alt vi gjør, og gjør ressursene vi skaper til en plattform for norsk språkutvikling.— Nasjonalbiblioteket om NB AI-labs åpne tilnærming

NB-Whisper: 66 000 timer norsk tale

Da OpenAI slapp Whisper-arkitekturen i 2022, så NB AI-lab en mulighet til å bygge noe unikt: en talegjenkjenningsmodell trent spesifikt på norsk tale, inkludert dialekter som generelle modeller sliter med. Resultatet, NB-Whisper, ble lansert i 2023.

Treningen tok i bruk 8 millioner justerte lydklipp, hver 30 sekunder lang, fra kilder som NST (Nasjonalt senter for taleteknologi), Stortingets transkripsjoner via Språkbanken, NRKs TV-undertekster og Nasjonalbibliotekets lydboksamling. Til sammen utgjorde dette 66 000 timer med norsk tale — et omfang som tidligere var utenfor rekkevidde for norske aktører. Treningen ble muliggjort gjennom Google TPU Research Cloud.

NB-Whisper-large (1,55B parametere) laster ned nesten 22 500 ganger i måneden og er i praksis blitt standardverktøyet for norsk tale-til-tekst i akademisk og kommersiell sammenheng. Modellen produserer korrekt normalisert bokmål eller nynorsk — inkludert stor forbokstav og tegnsetting — noe som gjør transkripsjoner direkte brukbare uten etterbehandling. Nasjonalbibliotekaren trakk særlig fram potensialet for å gjøre radioarkivet søkbart: «Hvis vi kan transkribere radioarkivet, blir det søkbart og tilgjengelig for folk på en helt annen måte.»

NB-Llama og Borealis: generativ KI på norsk

Med NB-Llama tok NB AI-lab steget inn i generative språkmodeller. NB-Llama-3.1-8B er fininnstilt på Metas Llama 3.1-arkitektur og støtter bokmål, nynorsk og engelsk fullt ut, med delvis støtte for svensk og dansk. Treningsdataene er utelukkende offentlig tilgjengelige datasett og syntetisk genererte data — blant annet Norwegian Colossal Corpus, CulturaX og High Performance Language Technologies (HPLT). For å sikre kvalitet ble NB-BERT-base brukt til å trene kvalitetsklassifiserere som filtrerte treningsdataene etter utdanningsverdi og lingvistisk kvalitet.

Den foreløpig mest ambisiøse utgivelsen er Borealis-familien — multimodale instruksjonsmodeller som kan behandle både bilder og tekst. Modellene finnes i fire størrelser (1B, 4B, 12B og 27B parametere) og ble ferdigstilt som preview-utgivelse i februar 2026. Med 27 milliarder parametere i den største varianten er Borealis-27B den mest avanserte norskutviklede åpne modellen til dags dato.

Mímir-prosjektet trente 17 språkmodeller med 7 milliarder parametere hver på LUMI-superdatamaskinen og dokumenterte at opphavsrettsbeskyttet norsk innhold fra Nasjonalbibliotekets samling gir merkbare forbedringer i faktanøyaktighet, oversettelse og oppsummering — viktig grunnlag for fremtidig norsk KI-politikk.

Mímir og Språkmodellklynge Norge

NB AI-lab arbeider ikke alene. Mímir-prosjektet, ledet av Nasjonalbiblioteket i samarbeid med Universitetet i Oslos Language Technology Group (LTG) og NTNU/NorwAI, undersøkte systematisk hvordan opphavsrettslig beskyttet materiale — bøker og aviser fra bibliotekets digitale samling — påvirker kvaliteten på generative norske språkmodeller. Prosjektet trente og evaluerte 17 modeller på 7 milliarder parametere hver ved hjelp av Sigma2-infrastruktur på LUMI-superdatamaskinen.

Funnene var tydelige: inkludering av kurert, opphavsrettsbeskyttet norsk innhold ga merkbare forbedringer særlig innen faktanøyaktighet, oversettelseskvalitet og oppsummering. Mímir etablerer dermed et empirisk grunnlag for de pågående politiske diskusjonene om KI og opphavsrett i Europa.

I februar 2026 ble Språkmodellklynge Norge lansert — et nasjonalt fellesskap for forskning på språkmodeller med Nasjonalbiblioteket, Universitetet i Oslo og NTNU som grunnleggere, og med støtte fra Språkrådet og NorwAI. Klyngen skal styrke koordineringen av norsk språkmodellforskning og etablere langsiktige finansieringsmekanismer for et felt som tidligere har manglet stabile rammer.

Betydningen for norsk språkteknologi

Uten NB AI-labs innsats ville norsk enten ha vært fraværende eller svakt representert i den globale KI-infrastrukturen. Engelskspråklige modeller er trent på hundrevis av milliarder ord; for norsk med knappe 5 millioner innbyggere og to skriftspråk er det aldri kommersielt lønnsomt for globale aktører å prioritere tilsvarende ressurser.

Nasjonalbibliotekets dobbeltrolle — som kulturbevarende institusjon og teknologisk infrastrukturleverandør — er i seg selv en modell for hvordan demokratier kan sikre at eget språk og kultur forblir representert i fremtidens KI-systemer. Gjennom åpen publisering under frie lisenser bidrar NB AI-lab til at norske bedrifter, forskere og offentlige virksomheter kan bygge på et solid norskspråklig fundament — uten å være avhengige av proprietære modeller fra globale teknologiselskaper.