TEKNOLOGI · FORKLARING

Store språkmodeller

Q: Hva er en stor språkmodell (LLM)?

En stor språkmodell er en dyp nevral nettverksmodell trent på enorme mengder tekst for å forstå og generere menneskelig språk. Modellen lærer statistiske mønstre i tekst og bruker disse til å forutsi neste token gitt en kontekst. LLM-er er basert på transformer-arkitektur, introdusert i artikkelen «Attention Is All You Need» (Vaswani mfl., 2017).

Store språkmodeller — kjent som LLM-er — er de nevrale nettverkene som driver ChatGPT, Claude og Gemini. Denne siden forklarer hva de er, hvordan de er bygget, og hva de faktisk ikke klarer: fra transformer-arkitekturen og tokenisering til hallusinasjon og skillet mellom åpne og lukkede modeller.

Editorial illustrasjon av store språkmodeller og transformer-arkitektur — ILLUSTRASJON GENERERT AV 24AI

Kort oppsummert

En LLM er et dypt nevralt nettverk trent på enorme tekstmengder for å forutsi neste token — bygget på transformer-arkitektur fra 2017.
Treningen skjer i tre faser: pretrening på rå tekst, veiledet finjustering (SFT), og menneskestyrt forsterkning (RLHF) for å gjøre modellen nyttig og trygg.
Kontekstvinduet bestemmer hvor mye tekst modellen kan huske på én gang — fra 4 000 tokens i tidlig ChatGPT til 10 millioner tokens i Metas Llama 4.
Hallusinasjon er en grunnleggende begrensning, ikke bare en feil: modellen genererer sannsynlige sekvenser uten innebygd faktasjekk.
Skillet mellom åpne modeller (Llama, Mistral) og lukkede (GPT, Claude) handler om tilgang til vekter og hvem som kontrollerer infrastrukturen.

Store språkmodeller er ikke smarte på den måten mennesker er smarte. De har ingen forståelse av verden, ingen intensjoner og ingen evne til å sjekke fakta. Det de er ekstremt gode på, er å finne mønstre i tekst — og bruke disse mønstrene til å generere ny tekst som høres naturlig ut. Den egenskapen har vist seg å være forbausende nyttig for en enorm bredde av oppgaver, fra koding og oversettelse til analyser og kreativ skriving.

175 mrd

Parametre i GPT-3 (2020)

10 mill.

Tokens kontekstvindu, Llama 4 Scout

2017

År transformer-arkitekturen ble publisert

Hva er en stor språkmodell?

En stor språkmodell er et dypt nevralt nettverk — en matematisk funksjon med milliarder av parametre — trent på enorme mengder tekst fra internett, bøker og andre kilder. Under treningen justeres parametrene gradvis slik at modellen blir bedre til å forutsi hva som er neste ord (eller neste token) i en tekstsekvens. Etter nok trening på nok data oppstår det vi kaller emergente evner: modellen kan oversette, oppsummere, skrive kode og resonnere om problemer den aldri har sett eksplisitt i treningsdataene.

Begrepet «stor» er relativt, men peker på at disse modellene har langt flere parametre enn tidligere generasjoner av nevrale nettverk — GPT-3 (2020) hadde 175 milliarder, og de største modellene i dag estimeres til billioner av parametre. Størrelse alene gir ikke kvalitet, men skala muliggjør mønstre og generaliseringsevne som ikke er oppnåelige med mindre nettverk.

Transformer-arkitekturen og «Attention is all you need»

Frem til 2017 dominerte rekurrente nevrale nettverk (RNN) og konvolusjonsnettverk (CNN) naturlig språkbehandling. Et team på åtte Google-forskere — Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser og Polosukhin — publiserte i juni 2017 artikkelen «Attention Is All You Need» (arXiv:1706.03762), som introduserte transformer-arkitekturen. Innsikten var radikal: man trengte ikke rekurrens i det hele tatt. Oppmerksomhetsmekanismer (attention) alene var nok.

Transformer-modellen har to hoveddeler: en enkoder som leser og representerer inngangsteksten, og en dekoder som genererer utgangsteksten. Begge består av stablede lag med to nøkkelkomponenter — selvoppmerksomhet (self-attention) og fremadrettet nevralt nettverk (feed-forward layers). Selvoppmerksomheten lar hvert token i sekvensen «se på» og vekte alle andre tokens, uavhengig av distansen mellom dem. Rekurrente nettverk måtte behandle ett ord om gangen; transformere behandler hele sekvensen parallelt, noe som gjør treningen langt mer effektiv på moderne GPU-er.

Multi-head attention er en videreutvikling der den samme oppmerksomhetsoperasjonen kjøres åtte ganger parallelt (i originalpaperet) med ulike lærte projeksjoner. Det gjør at modellen kan fange opp ulike typer relasjoner i teksten — syntaktiske, semantiske og diskursive — på én gang. Siden arkitekturen mangler den iboende sekvensordingen som rekurrente nettverk hadde, tilføres posisjonell koding (positional encoding) ved hjelp av sinus- og cosinusfunksjoner, slik at modellen vet hvor i sekvensen hvert token befinner seg.

Tokens og embeddings

Tekst som mates inn i en LLM, konverteres ikke direkte til ord — den brytes først ned i tokens. En token er typisk et ord eller en ordstamme, men kan også være en enkelt bokstav eller et skilletegn. Setningen «Kunstig intelligens er fascinerende» blir kanskje fire til seks tokens avhengig av tokeniseringsmetoden. Engelskspråklige tekster tokeniseres mer effektivt enn norske, siden de fleste LLM-er er trent primært på engelsk.

Hvert token tilordnes en numerisk vektor kalt en embedding. Embeddinger er lært under treningen og koder semantikk: tokens med lignende betydning ender opp nær hverandre i det høydimensjonale vektorrommet. Klassikeksemplet er at vektoren for «kongen» minus «mann» pluss «kvinne» gir en vektor nær «dronning». Disse embeddingvektorene er utgangspunktet for all videre prosessering i modellen.

Trening: pretrening, finjustering og RLHF

Treningen av en LLM skjer i faser:

Pretrening er den mest ressurskrevende fasen. Modellen eksponeres for billioner av tokens — tekst fra nettet, bøker, vitenskapelige artikler og kode — og lærer å forutsi neste token gitt alle foregående tokens. Det er ingen menneskelig merking; oppgaven er selvveiledet. Etter pretrening har modellen bred generell kunnskap, men er ikke spesielt god til å følge instruksjoner eller være nyttig i en samtale.

Veiledet finjustering (Supervised Fine-Tuning, SFT) justerer den pretrenede modellen med et mindre datasett av menneskeskrevne eksempelsvar på instruksjoner og spørsmål. Dette gjør modellen mer instruksjonsfølsom.

RLHF (Reinforcement Learning from Human Feedback) er det siste trinnet og det som i stor grad gjør modeller som ChatGPT nyttige og relativt trygge. Menneskelige evaluerere rangerer modellens svar fra beste til dårligste. En separat belønningsmodell trenes på disse rangeringene, og deretter optimaliseres selve LLM-en med forsterkningsteknikker (PPO) for å maksimere belønningen. OpenAI demonstrerte med InstructGPT at en 1,3-milliarders-parametersmodell finjustert med RLHF ble foretrukket av mennesker fremfor en 175-milliarders-GPT-3 uten RLHF — skala alene er ikke nok.

En modell genererer sannsynlige token-sekvenser — ikke sanne setninger. Den har ingen innebygd mekanisme for å skille fakta fra fiksjon.

Kontekstvindu

Kontekstvinduet er den maksimale mengden tekst en modell kan ta inn og behandle på én gang, målt i tokens. Det fungerer som modellens arbeidshukommelse: alt utenfor vinduet er «glemt». De tidligste ChatGPT-versjonene hadde et vindu på 4 000 tokens (omtrent tre sider tekst). Dagens store modeller tilbyr gjerne 128 000 tokens, tilsvarende en bok på 250 sider, og Metas Llama 4 Scout har et vindu på 10 millioner tokens.

Et større vindu er ikke alltid bedre. Forskning viser at modeller tenderer til å feste seg ved informasjon tidlig og sent i konteksten, mens det som befinner seg midt i et langt dokument, behandles dårligere — et fenomen kalt «lost in the middle»-problemet. Større kontekster øker dessuten beregningskostnadene betydelig.

Kapasiteter og begrensninger: hallusinasjon

LLM-er er imponerende generelle verktøy: de oversetter, oppsummerer, skriver kode, argumenterer og genererer kreativt innhold. Men de har strukturelle begrensninger som er viktige å forstå.

Den mest kjente begrensningen er hallusinasjon — når modellen genererer faktapåstander som er feil, selvmotsigende eller oppdiktet, med tilsynelatende selvsikkerhet. Det skjer fordi modellen optimeres for å produsere sannsynlige token-sekvenser, ikke sanne setninger. Den har ingen innebygd mekanisme for å sjekke fakta mot virkeligheten. En teoretisk analyse fra 2024 (Xu mfl., arXiv:2401.11817) argumenterer for at hallusinasjon er en grunnleggende matematisk begrensning i arkitekturen, ikke utelukkende en implementasjonsfeil som kan elimineres med mer data eller bedre trening.

Andre sentrale begrensninger: modellen har ingen oppdatert faktakunnskap etter treningsdatoen (cutoff), den mangler evne til å resonnere pålitelig om nøyaktig aritmetikk uten verktøystøtte, og den kan lett påvirkes av ledende spørsmål (prompt-skjevhet).

Hallusinasjon er ikke en feil som kan fikses med neste versjon — forskning tyder på at det er en strukturell begrensning ved statistisk neste-token-prediksjon. Brukere bør alltid verifisere faktapåstander fra LLM-er mot primærkilder.

Åpne versus lukkede modeller

LLM-er deles grovt sett i to kategorier basert på tilgang til modellvektene:

Lukkede modeller som OpenAIs GPT-4o, Anthropics Claude og Googles Gemini er kun tilgjengelig via API. Selskapene offentliggjør ikke vektene, og brukerne vet ikke nøyaktig hva modellen er trent på eller hvordan den er finjustert. Fordelen er at de gjerne er mest optimalisert og lettest å ta i bruk; ulempen er avhengighet av leverandøren og begrenset transparens.

Åpne modeller offentliggjør vektene og kan lastes ned og kjøres lokalt. Metas Llama-serie er den mest utbredte — Llama 4 Scout (april 2025) introduserte en Mixture-of-Experts-arkitektur med 10 millioner tokens kontekstvindu og kan kjøres på én GPU. Mistrals modeller, inkludert Mistral Small 4 (mars 2026) med 256 000 tokens kontekstvindu, er utgitt under Apache 2.0-lisens. Åpne modeller gir kontroll, revisjonsmuligheter og kan finjusteres på egne data uten å sende data til tredjeparter.

Skillet mellom «åpen» og «lukket» er ikke absolutt: noen modeller offentliggjør vektene, men ikke treningsdataene eller den fulle tekniske rapporten. DeepSeeks V3-modell (kinesisk) er åpen og har ifølge benchmarks svært lave hallusinasjonsrater for forretningsanvendelser, noe som illustrerer at det åpne landskapet i 2025–2026 er mer konkurransedyktig enn noen gang.

Ofte stilte spørsmål.

Hva er en stor språkmodell (LLM)?

En stor språkmodell er et dypt nevralt nettverk trent på enorme mengder tekst for å forstå og generere menneskelig språk. Modellen lærer statistiske mønstre i tekst og bruker disse til å forutsi neste token gitt en kontekst. LLM-er er basert på transformer-arkitektur, introdusert i artikkelen «Attention Is All You Need» (Vaswani mfl., 2017).

Hva er et kontekstvindu?

Kontekstvinduet er den maksimale mengden tekst — målt i tokens — som modellen kan ta inn og behandle på én gang. Det fungerer som modellens arbeidshukommelse: jo større kontekstvindu, jo lengre samtaler og dokumenter kan modellen håndtere sammenhengende. ChatGPT startet med 4 000 tokens; dagens flaggskipsmodeller tilbyr gjerne 128 000 til 1 million tokens.

Hva er hallusinasjon i LLM-er og hvorfor skjer det?

Hallusinasjon er når en LLM produserer faktapåstander som er feil, selvmotsigende eller ikke støttet av kildematerialet — selv om svaret høres overbevisende ut. Det skjer fordi modellen genererer sannsynlige token-sekvenser uten å ha tilgang til et innebygd faktasjekksystem. Forskning tyder på at en viss grad av hallusinasjon er en grunnleggende begrensning i arkitekturen, ikke bare en implementasjonsfeil.

Hva er forskjellen mellom åpne og lukkede LLM-er?

Lukkede modeller (som GPT-4o, Claude, Gemini) eies av kommersielle selskaper, er kun tilgjengelig via API og har ikke offentliggjorte vekter. Åpne modeller (som Metas Llama 4 og Mistrals modeller) offentliggjør modellvektene og kan lastes ned og kjøres lokalt. Åpne modeller gir større transparens og kontroll, men krever mer teknisk kompetanse å drifte.