NORSK SPRÅKTEKNOLOGI FRA NASJONALBIBLIOTEKET

Nasjonalbibliotekets AI-lab

Q: Hvilke modeller har NB AI-lab gitt ut?

NB AI-lab har gitt ut en rekke åpne modeller: NB-BERT (tekst-encoder for norsk bokmål og nynorsk, 2021), NB-Whisper (talegjenkjenning basert på OpenAI Whisper, trenet på 66 000 timer norsk tale), NB-Llama (generativ tekstmodell basert på Metas Llama-arkitektur med støtte for bokmål, nynorsk og engelsk), og Borealis (multimodal instruksjonsmodell i størrelsene 1B, 4B, 12B og 27B parametere). I tillegg finnes NB-Wav2Vec 2.0, NB-GPT-J-6B og en rekke fininnstilte varianter.

NB AI-lab ved Nasjonalbiblioteket utvikler åpne norske språkmodeller for tale, tekst og bilde — basert på en unik digital samling som spenner 200 år tilbake. Resultatene, fra NB-BERT og NB-Whisper til den multimodale Borealis-familien, deles fritt og danner grunnmuren for norsk språkteknologi.

Editorial illustrasjon av Nasjonalbibliotekets AI-lab og norsk språkteknologi — ILLUSTRASJON GENERERT AV 24AI

Kort oppsummert

NB AI-lab er Nasjonalbibliotekets laboratorium for KI, med kjerneoppdraget å utvikle og dele åpne norske språkmodeller.
Bibliotekets digitale samling — 200 år med norsk tekst, lyd og bilde — gir en unik posisjon som treningsdatagrunnlag.
Modellene NB-BERT, NB-Whisper, NB-Llama og Borealis er tilgjengelige gratis på Hugging Face under profilen NbAiLab.
Mímir-prosjektet, ledet av NB, viste at opphavsrettsbeskyttet norsk innhold gir merkbare kvalitetsforbedringer i språkmodeller.

Nasjonalbiblioteket sitter på en av Norges mest verdifulle dataskatter: en digital samling av bøker, aviser, tidsskrifter, lydopptak og bilder som spenner 200 år tilbake. Denne samlingen er ikke bare et kulturminne — den er treningsgrunnlaget for norske språkmodeller som ellers ikke ville kunne eksistert. NB AI-lab ble opprettet for å forvalte denne ressursen og gjøre den tilgjengelig for norsk forskning og samfunn gjennom åpne modeller og datasett.

Labens filosofi er enkel og tydelig: alt som utvikles, deles åpent. Modeller, treningsdata og kode publiseres under åpne lisenser på Hugging Face og GitHub. Med 37 ansatte og lokasjoner i Oslo og Mo i Rana opererer NB AI-lab i skjæringspunktet mellom kulturarvinstitusjoner og avansert KI-forskning — en posisjon få aktører i verden har.

66 000

Timer norsk tale i NB-Whisper-treningen

45 GB

Norsk tekst i Norwegian Colossal Corpus

17

Språkmodeller trent i Mímir-prosjektet

Norwegian Colossal Corpus — grunnmuren

Det hele startet med data. Før NB AI-lab kunne trene norske språkmodeller på nivå med internasjonale alternativer, måtte det bygges et treningsdatasett av tilstrekkelig størrelse og kvalitet. Resultatet ble Norwegian Colossal Corpus (NCC) — et åpent tekstkorpus på 45 GB med over 7 milliarder ord på bokmål og nynorsk.

NCC kombinerer materiale fra Nasjonalbibliotekets digitale samling med avisartikler, offentlige dokumenter, Wikipedia og nettekster. Alle delkorpora er grundig renset og standardisert til et felles format, noe som gjør det enkelt å bruke for forskere og utviklere. Korpuset er tilgjengelig gratis via Hugging Face og er i dag et av de viktigste fellesressursene for norsk og skandinavisk språkteknologi.

Til sammenligning: store globale modeller er typisk trent på engelske datasett med hundrevis av milliarder ord. For et lite språk som norsk er NCC uforholdsmessig verdifullt — og Nasjonalbibliotekets tilgang til historisk materiale gjør det mulig å fange norsk språk slik det faktisk har utviklet seg, ikke bare slik det ser ut på internett i dag.

NB-BERT: tekst-encoder for norsk

NB-BERT var NB AI-labs første store gjennombrudd. Modellen, utgitt i januar 2021, er en BERT-basert tekst-encoder trent fra grunnen av på norsk bokmål og nynorsk fra de siste 200 år. I motsetning til Googles flerspråklige BERT-modell, som deler parameterkapasitet mellom mange språk, er NB-BERT dedikert til norsk — og gir dermed vesentlig bedre resultater på norskspråklige oppgaver.

NB-BERT-base (0,2B parametere) og NB-BERT-large er tilgjengelige under CC-BY-4.0-lisens og brukes i dag av over 26 avledede modeller, inkludert fininnstilte varianter for navnegjenkjenning, sentimentanalyse og tekstklassifisering. Modellen laster ned rundt 3 900 ganger i måneden og drives fra Hugging Face med støtte for PyTorch, TensorFlow og JAX.

Vi deler alt vi gjør, og gjør ressursene vi skaper til en plattform for norsk språkutvikling.— Nasjonalbiblioteket om NB AI-labs åpne tilnærming

NB-Whisper: 66 000 timer norsk tale

Da OpenAI slapp Whisper-arkitekturen i 2022, så NB AI-lab en mulighet til å bygge noe unikt: en talegjenkjenningsmodell trent spesifikt på norsk tale, inkludert dialekter som generelle modeller sliter med. Resultatet, NB-Whisper, ble lansert i 2023.

Treningen tok i bruk 8 millioner justerte lydklipp, hver 30 sekunder lang, fra kilder som NST (Nasjonalt senter for taleteknologi), Stortingets transkripsjoner via Språkbanken, NRKs TV-undertekster og Nasjonalbibliotekets lydboksamling. Til sammen utgjorde dette 66 000 timer med norsk tale — et omfang som tidligere var utenfor rekkevidde for norske aktører. Treningen ble muliggjort gjennom Google TPU Research Cloud.

NB-Whisper-large (1,55B parametere) laster ned nesten 22 500 ganger i måneden og er i praksis blitt standardverktøyet for norsk tale-til-tekst i akademisk og kommersiell sammenheng. Modellen produserer korrekt normalisert bokmål eller nynorsk — inkludert stor forbokstav og tegnsetting — noe som gjør transkripsjoner direkte brukbare uten etterbehandling. Nasjonalbibliotekaren trakk særlig fram potensialet for å gjøre radioarkivet søkbart: «Hvis vi kan transkribere radioarkivet, blir det søkbart og tilgjengelig for folk på en helt annen måte.»

NB-Llama og Borealis: generativ KI på norsk

Med NB-Llama tok NB AI-lab steget inn i generative språkmodeller. NB-Llama-3.1-8B er fininnstilt på Metas Llama 3.1-arkitektur og støtter bokmål, nynorsk og engelsk fullt ut, med delvis støtte for svensk og dansk. Treningsdataene er utelukkende offentlig tilgjengelige datasett og syntetisk genererte data — blant annet Norwegian Colossal Corpus, CulturaX og High Performance Language Technologies (HPLT). For å sikre kvalitet ble NB-BERT-base brukt til å trene kvalitetsklassifiserere som filtrerte treningsdataene etter utdanningsverdi og lingvistisk kvalitet.

Den foreløpig mest ambisiøse utgivelsen er Borealis-familien — multimodale instruksjonsmodeller som kan behandle både bilder og tekst. Modellene finnes i fire størrelser (1B, 4B, 12B og 27B parametere) og ble ferdigstilt som preview-utgivelse i februar 2026. Med 27 milliarder parametere i den største varianten er Borealis-27B den mest avanserte norskutviklede åpne modellen til dags dato.

Mímir-prosjektet trente 17 språkmodeller med 7 milliarder parametere hver på LUMI-superdatamaskinen og dokumenterte at opphavsrettsbeskyttet norsk innhold fra Nasjonalbibliotekets samling gir merkbare forbedringer i faktanøyaktighet, oversettelse og oppsummering — viktig grunnlag for fremtidig norsk KI-politikk.

Mímir og Språkmodellklynge Norge

NB AI-lab arbeider ikke alene. Mímir-prosjektet, ledet av Nasjonalbiblioteket i samarbeid med Universitetet i Oslos Language Technology Group (LTG) og NTNU/NorwAI, undersøkte systematisk hvordan opphavsrettslig beskyttet materiale — bøker og aviser fra bibliotekets digitale samling — påvirker kvaliteten på generative norske språkmodeller. Prosjektet trente og evaluerte 17 modeller på 7 milliarder parametere hver ved hjelp av Sigma2-infrastruktur på LUMI-superdatamaskinen.

Funnene var tydelige: inkludering av kurert, opphavsrettsbeskyttet norsk innhold ga merkbare forbedringer særlig innen faktanøyaktighet, oversettelseskvalitet og oppsummering. Mímir etablerer dermed et empirisk grunnlag for de pågående politiske diskusjonene om KI og opphavsrett i Europa.

I februar 2026 ble Språkmodellklynge Norge lansert — et nasjonalt fellesskap for forskning på språkmodeller med Nasjonalbiblioteket, Universitetet i Oslo og NTNU som grunnleggere, og med støtte fra Språkrådet og NorwAI. Klyngen skal styrke koordineringen av norsk språkmodellforskning og etablere langsiktige finansieringsmekanismer for et felt som tidligere har manglet stabile rammer.

Betydningen for norsk språkteknologi

Uten NB AI-labs innsats ville norsk enten ha vært fraværende eller svakt representert i den globale KI-infrastrukturen. Engelskspråklige modeller er trent på hundrevis av milliarder ord; for norsk med knappe 5 millioner innbyggere og to skriftspråk er det aldri kommersielt lønnsomt for globale aktører å prioritere tilsvarende ressurser.

Nasjonalbibliotekets dobbeltrolle — som kulturbevarende institusjon og teknologisk infrastrukturleverandør — er i seg selv en modell for hvordan demokratier kan sikre at eget språk og kultur forblir representert i fremtidens KI-systemer. Gjennom åpen publisering under frie lisenser bidrar NB AI-lab til at norske bedrifter, forskere og offentlige virksomheter kan bygge på et solid norskspråklig fundament — uten å være avhengige av proprietære modeller fra globale teknologiselskaper.

Ofte stilte spørsmål.

Hva er Nasjonalbibliotekets AI-lab?

NB AI-lab er Nasjonalbibliotekets laboratorium for kunstig intelligens, med kontor i Oslo og Mo i Rana. Labens primære oppdrag er å utvikle og dele åpne norske språkmodeller og datasett — særlig basert på bibliotekets massive digitale samling av norske tekster, lydopptak og bilder som spenner 200 år tilbake i tid. Alle modeller og datasett publiseres åpent på Hugging Face under profilen NbAiLab.

Hvilke modeller har NB AI-lab gitt ut?

NB AI-lab har gitt ut NB-BERT (tekst-encoder for norsk bokmål og nynorsk, 2021), NB-Whisper (talegjenkjenning basert på OpenAI Whisper, trenet på 66 000 timer norsk tale), NB-Llama (generativ tekstmodell basert på Metas Llama-arkitektur med støtte for bokmål, nynorsk og engelsk), og Borealis (multimodal instruksjonsmodell i størrelsene 1B, 4B, 12B og 27B parametere). I tillegg finnes NB-Wav2Vec 2.0, NB-GPT-J-6B og en rekke fininnstilte varianter.

Hva er Norwegian Colossal Corpus (NCC)?

Norwegian Colossal Corpus (NCC) er et åpent treningsdatasett på 45 GB (over 7 milliarder ord) med norsk tekst fra bokmål og nynorsk. Korpuset kombinerer materiale fra Nasjonalbibliotekets digitale samling med avisartikler, offentlige dokumenter, Wikipedia og nettekster. Det er tilgjengelig gratis på Hugging Face og fungerer som grunnmur for en rekke norske og skandinaviske språkmodeller.

Hva er Mímir-prosjektet og hva viste det?

Mímir var et forskningsprosjekt ledet av Nasjonalbiblioteket i samarbeid med Universitetet i Oslo (LTG) og NTNU/NorwAI, med beregningskraft fra Sigma2 på LUMI-superdatamaskinen. Prosjektet trente og evaluerte 17 store språkmodeller med 7 milliarder parametere hver og undersøkte hvordan opphavsrettsbeskyttet materiale fra bibliotekets samling påvirker modellkvaliteten. Konklusjonen var klar: kvalitetsselektert norsk innhold ga merkbare forbedringer innen faktanøyaktighet, oversettelse og oppsummering.