TRYGGHET, ANGREP OG FORSVAR I KUNSTIG INTELLIGENS

AI-sikkerhet

Q: Hva krever EU AI Act av AI-sikkerhet, og hva er Datatilsynets rolle?

KI-forordningen (EU AI Act) stiller strenge krav til høyrisiko-AI-systemer: teknisk robusthet, nøyaktighet og cybersikkerhet gjennom hele livssyklusen, menneskelig tilsyn, sporbarhet og konsekvensutredning (FRIA). Norsk gjennomføringslov ble sendt på høring 30. juni 2025, og forventes å tre i kraft i 2026. Datatilsynet vil bidra med personvernkompetanse og delta i det regulatoriske AI-sandkassearbeidet. Nkom er utpekt som koordinerende nasjonal tilsynsmyndighet.

Kunstig intelligens bringer grunnleggende nye risikoer — fra modeller som manipuleres via prompt injection til treningsdata som forgiftes, og systemer som hallusinerer kritisk informasjon. AI-sikkerhet handler om å forstå og håndtere begge sidene av mynten: å justere modeller slik at de oppfører seg som tilsiktet (AI safety), og å beskytte dem mot bevisste angrep (AI security).

Editorial illustrasjon av AI-sikkerhet — trygghet og trusler i kunstig intelligens — ILLUSTRASJON GENERERT AV 24AI

Kort oppsummert

AI safety (justering) og AI security (angrep/forsvar) er ulike disipliner — begge avgjørende for trygg KI-bruk.
Prompt injection er rangert som den alvorligste sårbarheten i LLM-applikasjoner av OWASP (LLM01:2025).
NIST AI RMF og ISO/IEC 42001 er de viktigste internasjonale rammeverkene for AI-risikostyring.
KI-forordningen krever teknisk robusthet, menneskelig tilsyn og konsekvensutredning for høyrisiko-KI-systemer.
UK AI Security Institute og Anthropics Responsible Scaling Policy setter nye standarder for frontier-AI-sikkerhet.

Kunstig intelligens er ikke bare et verktøy — det er en ny angrepsflate. Jo mer AI-systemer brukes til kritiske beslutninger, jo høyere er innsatsen når de svikter eller manipuleres. Feltet AI-sikkerhet deler seg i to nært beslektede, men prinsipielt ulike disipliner: AI safety, som handler om justering og utilsiktede feil, og AI security, som handler om bevisste angrep og forsvar. Begge er avgjørende — og begge er gjenstand for rask utvikling av både trusler og mottiltak.

LLM01

Prompt injection — OWASPs alvorligste LLM-sårbarhet 2025

40×

Økt innsats for å finne biologiske misbruksvektorer mellom to modellgenerasjoner (AISI 2025)

Jan. 2023

NIST AI RMF 1.0 lansert — global referansestandard

AI safety kontra AI security

Begrepene brukes ofte om hverandre, men peker på forskjellige risikoer. AI safety — gjerne oversatt som AI-trygghet eller AI-justering — handler om at modeller oppfører seg i tråd med menneskelige intensjoner og verdier. Farene her er typisk utilsiktede: en modell som generaliserer feil, forfølger delmål som er skadelige for det egentlige formålet, eller som gir selvsikre svar der den er usikker (hallusinasjon). Alignment-forskning, verdijustering og tolkbarhet (interpretability) er sentrale verktøy.

AI security — KI-sikkerhet i teknisk forstand — handler om å beskytte AI-systemer mot bevisste angrep fra ondsinnede aktører. Her er truslene adversarielle: noen prøver aktivt å manipulere, lure eller bryte systemet. Tiltakene ligner tradisjonell cybersikkerhet, men tilpasset maskinlæringsarkitekturer. Typiske angrepsvektorer inkluderer prompt injection, datalekkasje fra treningsdata, modellmanipulasjon og misbruk av API-er med utilstrekkelig tilgangskontroll.

AI safety dreier seg om utilsiktede feil og justering av modellers verdier. AI security dreier seg om å forsvare modeller mot dem som bevisst vil misbruke dem. Begge er nødvendige — ingen av dem er tilstrekkelige alene.

Sentrale risikoer og angrepsvektorer

OWASP — organisasjonen bak de mest brukte sikkerhetsstandardene for webapplikasjoner — publiserte i 2025 en oppdatert versjon av OWASP Top 10 for LLM-applikasjoner. Listen beskriver de ti mest kritiske sårbarhetene i systemer som bruker store språkmodeller:

OWASP Top 10 for LLM-applikasjoner — utvalg (2025)

LLM01 — Prompt injection: Angripere manipulerer modellens instruksjoner via inndata, direkte eller via innhold modellen henter («indirekte prompt injection»). Rangert som den mest kritiske sårbarheten.
LLM02 — Sensitiv informasjonsavsløring: Modeller kan lekke data fra treningssett, systemprompts eller kontekstuelt sensitive opplysninger fra andre brukeres samtaler.
LLM03 — Forsyningskjedesårbarheter: Kompromitterte forhåndstrente modeller, datasett eller tredjepartskomponenter undergraver systemets integritet.
LLM04 — Dataforgiftning (training data poisoning): Manipulerte treningsdata kan føre til at modellen lærer feil atferd, bakdører eller systematiske feil.
LLM08 — Overdreven autonomi (excessive agency): Når en LLM-agent gis for bredt handlingsrom uten tilstrekkelig menneskelig kontroll, kan den iverksette uønskede og skadelige handlinger.

Hallusinasjon og bias

To risikoer som ikke er rene angrepsscenarier, men likevel utgjør alvorlige sikkerhetsutfordringer: hallusinasjon — modeller som presenterer feil fakta med høy selvsikkerhet — og bias, systematiske skjevheter bakt inn i treningsdata som reproduseres i modellens utfall. Begge kan ha rettslige konsekvenser, særlig i høyrisikoanvendelser som kredittvurdering, medisinsk diagnose og juridisk rådgivning, der KI-forordningen stiller krav om forklarbarhet og menneskelig tilsyn.

Internasjonale rammeverk og standarder

Det har vokst frem et sett med anerkjente rammeverk for å strukturere AI-risikostyring. De tre viktigste globalt er:

NIST AI Risk Management Framework (AI RMF 1.0)

Det amerikanske National Institute of Standards and Technology lanserte AI RMF 1.0 den 26. januar 2023. Rammeverket er frivillig og utviklet i åpen dialog med over 240 bidragsytende organisasjoner fra næringsliv, akademia og myndigheter. Det strukturerer AI-risikostyring rundt fire kjernefunksjoner: Govern (styrings- og beslutningsstrukturer), Map (kartlegge systemet og mulige konsekvenser), Measure (vurdere ytelse og risikoindikatorer) og Manage (iverksette tiltak for å redusere identifiserte risikoer). NIST AI RMF har blitt en global referansestandard og er anbefalt av både EU og OECD som utgangspunkt for ansvarlig AI-styring.

ISO/IEC 42001:2023

ISO/IEC 42001 er verdens første internasjonale standard for et kunstig intelligens-styringssystem (AI Management System, AIMS). Standarden ble publisert i desember 2023 og spesifiserer krav og gir veiledning for å etablere, implementere, vedlikeholde og kontinuerlig forbedre AI-styring i organisasjoner. Sentrale krav inkluderer risikovurdering, konsekvensanalyse av KI-systemer, livssyklusstyring og oppfølging av tredjeparts leverandører. ISO 42001-sertifisering er i ferd med å bli et konkurransefortrinn og et kontraktskrav i mange bransjer.

OWASP Top 10 for LLM-applikasjoner

OWASP (Open Worldwide Application Security Project) er kjent for sine Top 10-lister som definerer de viktigste sikkerhetsrisikoene for webapplikasjoner. I 2023 ble den første utgaven av OWASP Top 10 for Large Language Model Applications publisert, og 2025-versjonen er den gjeldende standarden. Listen er blitt en praktisk sjekkliste for utviklere og sikkerhetsteam som bygger og drifter LLM-baserte systemer — fra chatboter til autonome agenter.

Prompt injection er rangert som den mest kritiske sårbarheten i LLM-applikasjoner av OWASP. Angrepet utnytter at store språkmodeller ikke klarer å skille pålitelige instruksjoner fra ondsinnet inndata — et grunnleggende arkitektonisk problem som ikke har noen enkel løsning.

AI Safety Institutes og frontier-labenes sikkerhetsarbeid

Bekymringen for risikoen ved de kraftigste AI-modellene — kalt frontier-modeller — har ført til opprettelse av dedikerte statlige og industrielle sikkerhetsorganer.

UK AI Security Institute (AISI)

Det britiske AI Safety Institute ble opprettet i november 2023 og har siden omdøpt seg til AI Security Institute (AISI) for å reflektere et klarere og smalere mandat: å evaluere sikkerhetsrisikoer ved frontier-modeller. AISI tester modeller fra ledende laboratorier for evner innen cyberkriminalitet, biologiske og kjemiske våpen, autonomi og psykologisk påvirkning.

AISIs første Frontier AI Trends Report (2025) viste at frontier-modellers evner har økt dramatisk: modeller klarer nå «lærlingnivå»-cyberoppgaver 50 prosent av tiden, mot bare 9 prosent i 2023. Enda mer alarmerende: innsatsen som kreves for å finne biologiske misbruksvektorer økte 40 ganger mellom to modellgenerasjoner lansert med bare seks måneders mellomrom — et tegn på at innebygde beskyttelsesmekanismer stadig forbedres, men at trusselen vokser i takt.

Anthropic — Responsible Scaling Policy

Anthropic, selskapet bak Claude-modellene, lanserte sin Responsible Scaling Policy (RSP) i september 2023. Politikken definerer kapabilitetsterskler — som evne til å bidra til utvikling av biologiske eller kjemiske våpen, eller evne til avansert cyberkriminalitet — og knytter disse til obligatoriske sikkerhetsnivåer (ASL-nivåer) som must oppnås før en modell kan trenes videre eller lanseres. Versjon 3.2 av RSP (april 2026) autoriserer ekstern gjennomgang av risikorapporter og formaliserte orienteringer av tilsynsorganer.

OpenAI — Preparedness Framework

OpenAI publiserte versjon 2 av sitt Preparedness Framework i april 2025. Rammeverket definerer alvorlig skade som over tusen døde eller over 100 milliarder dollar i økonomisk skade, og spesifiserer tre kategorier av frontier-kapabiliteter som krever særlig oppfølging: biologiske og kjemiske evner, cybersikkerhet og autonomi. En intern Safety Advisory Group (SAG) har ansvar for å vurdere sikkerhetsnivå for nye modeller.

Norsk og europeisk kobling — KI-forordningen og Datatilsynet

EUs KI-forordning (EU AI Act) stiller eksplisitte krav til teknisk sikkerhet for høyrisiko-KI-systemer: robusthet mot feil, nøyaktighet, cybersikkerhet gjennom hele livssyklusen, menneskelig tilsyn og grundig dokumentasjon. Høyrisikosystemer — definert i vedlegg III til forordningen, og som inkluderer systemer brukt i kritisk infrastruktur, kredittvurdering, medisinsk diagnose, rettshåndhevelse og utdanning — må gjennomgå en konsekvensutredning for grunnleggende rettigheter (FRIA) før de tas i bruk.

Norsk gjennomføringslov ble sendt på høring 30. juni 2025. Datatilsynets direktør Line Coll understreket at mange krav i KI-loven likner dem i personopplysningsloven, og at «gode rutiner for etterlevelse av personopplysningsloven vil derfor være et godt utgangspunkt» for å møte KI-lovens forpliktelser. Datatilsynet vil bidra med personvernkompetanse i det regulatoriske AI-sandkassearbeidet, mens Nkom er utpekt som koordinerende nasjonal tilsynsmyndighet for forordningen.

GDPR og KI-forordningen overlapper betydelig: DPIA (personvernkonsekvensutredning) og FRIA (konsekvensutredning for grunnleggende rettigheter) har parallelle krav. Virksomheter som allerede har modne GDPR-prosesser vil ha et forsprang, men KI-forordningens tekniske sikkerhetskrav — særlig til robusthet og cybersikkerhet — går lenger enn det GDPR alene krever.

Ofte stilte spørsmål.

Hva er forskjellen mellom AI safety og AI security?

AI safety handler om å sikre at AI-systemer oppfører seg i tråd med menneskelige verdier og intensjoner — kjent som justering (alignment). Risikoene her er typisk utilsiktede, som feilaktig generalisering eller uønskede mål. AI security handler om å beskytte AI-systemer mot bevisste angrep: prompt injection, datalekkasje, modellmanipulasjon og misbruk. De to feltene overlapper, men krever ulike tiltak og kompetanse.

Hva er prompt injection og hvorfor er det farlig?

Prompt injection er et angrep der en ondsinnet aktør manipulerer inndataene til en stor språkmodell slik at modellen ignorerer sine opprinnelige instruksjoner og følger angriperens kommandoer i stedet. OWASP rangerer prompt injection som den alvorligste sårbarheten i LLM-applikasjoner (LLM01:2025). Angrepet forekommer i to varianter: direkte (angriperen skriver meldingen selv) og indirekte (skadelige instruksjoner er gjemt i innhold modellen henter fra nettet eller dokumenter).

Hva er NIST AI Risk Management Framework?

NIST AI RMF 1.0 ble lansert 26. januar 2023 av det amerikanske National Institute of Standards and Technology. Rammeverket er frivillig og strukturerer AI-risikostyring rundt fire kjernefunksjoner: Govern (styrings- og beslutningsstrukturer), Map (kartlegge systemet og mulige konsekvenser), Measure (vurdere ytelse og risikoindikatorer) og Manage (iverksette tiltak for å redusere identifiserte risikoer). Rammeverket er en global referansestandard.

Hva krever EU AI Act av AI-sikkerhet, og hva er Datatilsynets rolle?

KI-forordningen stiller strenge krav til høyrisiko-KI-systemer: teknisk robusthet, nøyaktighet og cybersikkerhet gjennom hele livssyklusen, menneskelig tilsyn, sporbarhet og konsekvensutredning for grunnleggende rettigheter (FRIA). Norsk gjennomføringslov ble sendt på høring 30. juni 2025, og forventes å tre i kraft i 2026. Datatilsynet bidrar med personvernkompetanse og deltar i det regulatoriske AI-sandkassearbeidet, mens Nkom er utpekt som koordinerende nasjonal tilsynsmyndighet.