Store språkmodeller er ikke smarte på den måten mennesker er smarte. De har ingen forståelse av verden, ingen intensjoner og ingen evne til å sjekke fakta. Det de er ekstremt gode på, er å finne mønstre i tekst — og bruke disse mønstrene til å generere ny tekst som høres naturlig ut. Den egenskapen har vist seg å være forbausende nyttig for en enorm bredde av oppgaver, fra koding og oversettelse til analyser og kreativ skriving.
Hva er en stor språkmodell?
En stor språkmodell er et dypt nevralt nettverk — en matematisk funksjon med milliarder av parametre — trent på enorme mengder tekst fra internett, bøker og andre kilder. Under treningen justeres parametrene gradvis slik at modellen blir bedre til å forutsi hva som er neste ord (eller neste token) i en tekstsekvens. Etter nok trening på nok data oppstår det vi kaller emergente evner: modellen kan oversette, oppsummere, skrive kode og resonnere om problemer den aldri har sett eksplisitt i treningsdataene.
Begrepet «stor» er relativt, men peker på at disse modellene har langt flere parametre enn tidligere generasjoner av nevrale nettverk — GPT-3 (2020) hadde 175 milliarder, og de største modellene i dag estimeres til billioner av parametre. Størrelse alene gir ikke kvalitet, men skala muliggjør mønstre og generaliseringsevne som ikke er oppnåelige med mindre nettverk.
Transformer-arkitekturen og «Attention is all you need»
Frem til 2017 dominerte rekurrente nevrale nettverk (RNN) og konvolusjonsnettverk (CNN) naturlig språkbehandling. Et team på åtte Google-forskere — Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser og Polosukhin — publiserte i juni 2017 artikkelen «Attention Is All You Need» (arXiv:1706.03762), som introduserte transformer-arkitekturen. Innsikten var radikal: man trengte ikke rekurrens i det hele tatt. Oppmerksomhetsmekanismer (attention) alene var nok.
Transformer-modellen har to hoveddeler: en enkoder som leser og representerer inngangsteksten, og en dekoder som genererer utgangsteksten. Begge består av stablede lag med to nøkkelkomponenter — selvoppmerksomhet (self-attention) og fremadrettet nevralt nettverk (feed-forward layers). Selvoppmerksomheten lar hvert token i sekvensen «se på» og vekte alle andre tokens, uavhengig av distansen mellom dem. Rekurrente nettverk måtte behandle ett ord om gangen; transformere behandler hele sekvensen parallelt, noe som gjør treningen langt mer effektiv på moderne GPU-er.
Multi-head attention er en videreutvikling der den samme oppmerksomhetsoperasjonen kjøres åtte ganger parallelt (i originalpaperet) med ulike lærte projeksjoner. Det gjør at modellen kan fange opp ulike typer relasjoner i teksten — syntaktiske, semantiske og diskursive — på én gang. Siden arkitekturen mangler den iboende sekvensordingen som rekurrente nettverk hadde, tilføres posisjonell koding (positional encoding) ved hjelp av sinus- og cosinusfunksjoner, slik at modellen vet hvor i sekvensen hvert token befinner seg.
Tokens og embeddings
Tekst som mates inn i en LLM, konverteres ikke direkte til ord — den brytes først ned i tokens. En token er typisk et ord eller en ordstamme, men kan også være en enkelt bokstav eller et skilletegn. Setningen «Kunstig intelligens er fascinerende» blir kanskje fire til seks tokens avhengig av tokeniseringsmetoden. Engelskspråklige tekster tokeniseres mer effektivt enn norske, siden de fleste LLM-er er trent primært på engelsk.
Hvert token tilordnes en numerisk vektor kalt en embedding. Embeddinger er lært under treningen og koder semantikk: tokens med lignende betydning ender opp nær hverandre i det høydimensjonale vektorrommet. Klassikeksemplet er at vektoren for «kongen» minus «mann» pluss «kvinne» gir en vektor nær «dronning». Disse embeddingvektorene er utgangspunktet for all videre prosessering i modellen.
Trening: pretrening, finjustering og RLHF
Treningen av en LLM skjer i faser:
Pretrening er den mest ressurskrevende fasen. Modellen eksponeres for billioner av tokens — tekst fra nettet, bøker, vitenskapelige artikler og kode — og lærer å forutsi neste token gitt alle foregående tokens. Det er ingen menneskelig merking; oppgaven er selvveiledet. Etter pretrening har modellen bred generell kunnskap, men er ikke spesielt god til å følge instruksjoner eller være nyttig i en samtale.
Veiledet finjustering (Supervised Fine-Tuning, SFT) justerer den pretrenede modellen med et mindre datasett av menneskeskrevne eksempelsvar på instruksjoner og spørsmål. Dette gjør modellen mer instruksjonsfølsom.
RLHF (Reinforcement Learning from Human Feedback) er det siste trinnet og det som i stor grad gjør modeller som ChatGPT nyttige og relativt trygge. Menneskelige evaluerere rangerer modellens svar fra beste til dårligste. En separat belønningsmodell trenes på disse rangeringene, og deretter optimaliseres selve LLM-en med forsterkningsteknikker (PPO) for å maksimere belønningen. OpenAI demonstrerte med InstructGPT at en 1,3-milliarders-parametersmodell finjustert med RLHF ble foretrukket av mennesker fremfor en 175-milliarders-GPT-3 uten RLHF — skala alene er ikke nok.
En modell genererer sannsynlige token-sekvenser — ikke sanne setninger. Den har ingen innebygd mekanisme for å skille fakta fra fiksjon.
Kontekstvindu
Kontekstvinduet er den maksimale mengden tekst en modell kan ta inn og behandle på én gang, målt i tokens. Det fungerer som modellens arbeidshukommelse: alt utenfor vinduet er «glemt». De tidligste ChatGPT-versjonene hadde et vindu på 4 000 tokens (omtrent tre sider tekst). Dagens store modeller tilbyr gjerne 128 000 tokens, tilsvarende en bok på 250 sider, og Metas Llama 4 Scout har et vindu på 10 millioner tokens.
Et større vindu er ikke alltid bedre. Forskning viser at modeller tenderer til å feste seg ved informasjon tidlig og sent i konteksten, mens det som befinner seg midt i et langt dokument, behandles dårligere — et fenomen kalt «lost in the middle»-problemet. Større kontekster øker dessuten beregningskostnadene betydelig.
Kapasiteter og begrensninger: hallusinasjon
LLM-er er imponerende generelle verktøy: de oversetter, oppsummerer, skriver kode, argumenterer og genererer kreativt innhold. Men de har strukturelle begrensninger som er viktige å forstå.
Den mest kjente begrensningen er hallusinasjon — når modellen genererer faktapåstander som er feil, selvmotsigende eller oppdiktet, med tilsynelatende selvsikkerhet. Det skjer fordi modellen optimeres for å produsere sannsynlige token-sekvenser, ikke sanne setninger. Den har ingen innebygd mekanisme for å sjekke fakta mot virkeligheten. En teoretisk analyse fra 2024 (Xu mfl., arXiv:2401.11817) argumenterer for at hallusinasjon er en grunnleggende matematisk begrensning i arkitekturen, ikke utelukkende en implementasjonsfeil som kan elimineres med mer data eller bedre trening.
Andre sentrale begrensninger: modellen har ingen oppdatert faktakunnskap etter treningsdatoen (cutoff), den mangler evne til å resonnere pålitelig om nøyaktig aritmetikk uten verktøystøtte, og den kan lett påvirkes av ledende spørsmål (prompt-skjevhet).
Åpne versus lukkede modeller
LLM-er deles grovt sett i to kategorier basert på tilgang til modellvektene:
Lukkede modeller som OpenAIs GPT-4o, Anthropics Claude og Googles Gemini er kun tilgjengelig via API. Selskapene offentliggjør ikke vektene, og brukerne vet ikke nøyaktig hva modellen er trent på eller hvordan den er finjustert. Fordelen er at de gjerne er mest optimalisert og lettest å ta i bruk; ulempen er avhengighet av leverandøren og begrenset transparens.
Åpne modeller offentliggjør vektene og kan lastes ned og kjøres lokalt. Metas Llama-serie er den mest utbredte — Llama 4 Scout (april 2025) introduserte en Mixture-of-Experts-arkitektur med 10 millioner tokens kontekstvindu og kan kjøres på én GPU. Mistrals modeller, inkludert Mistral Small 4 (mars 2026) med 256 000 tokens kontekstvindu, er utgitt under Apache 2.0-lisens. Åpne modeller gir kontroll, revisjonsmuligheter og kan finjusteres på egne data uten å sende data til tredjeparter.
Skillet mellom «åpen» og «lukket» er ikke absolutt: noen modeller offentliggjør vektene, men ikke treningsdataene eller den fulle tekniske rapporten. DeepSeeks V3-modell (kinesisk) er åpen og har ifølge benchmarks svært lave hallusinasjonsrater for forretningsanvendelser, noe som illustrerer at det åpne landskapet i 2025–2026 er mer konkurransedyktig enn noen gang.
