Kunstig intelligens er ikke bare et verktøy — det er en ny angrepsflate. Jo mer AI-systemer brukes til kritiske beslutninger, jo høyere er innsatsen når de svikter eller manipuleres. Feltet AI-sikkerhet deler seg i to nært beslektede, men prinsipielt ulike disipliner: AI safety, som handler om justering og utilsiktede feil, og AI security, som handler om bevisste angrep og forsvar. Begge er avgjørende — og begge er gjenstand for rask utvikling av både trusler og mottiltak.
AI safety kontra AI security
Begrepene brukes ofte om hverandre, men peker på forskjellige risikoer. AI safety — gjerne oversatt som AI-trygghet eller AI-justering — handler om at modeller oppfører seg i tråd med menneskelige intensjoner og verdier. Farene her er typisk utilsiktede: en modell som generaliserer feil, forfølger delmål som er skadelige for det egentlige formålet, eller som gir selvsikre svar der den er usikker (hallusinasjon). Alignment-forskning, verdijustering og tolkbarhet (interpretability) er sentrale verktøy.
AI security — KI-sikkerhet i teknisk forstand — handler om å beskytte AI-systemer mot bevisste angrep fra ondsinnede aktører. Her er truslene adversarielle: noen prøver aktivt å manipulere, lure eller bryte systemet. Tiltakene ligner tradisjonell cybersikkerhet, men tilpasset maskinlæringsarkitekturer. Typiske angrepsvektorer inkluderer prompt injection, datalekkasje fra treningsdata, modellmanipulasjon og misbruk av API-er med utilstrekkelig tilgangskontroll.
AI safety dreier seg om utilsiktede feil og justering av modellers verdier. AI security dreier seg om å forsvare modeller mot dem som bevisst vil misbruke dem. Begge er nødvendige — ingen av dem er tilstrekkelige alene.
Sentrale risikoer og angrepsvektorer
OWASP — organisasjonen bak de mest brukte sikkerhetsstandardene for webapplikasjoner — publiserte i 2025 en oppdatert versjon av OWASP Top 10 for LLM-applikasjoner. Listen beskriver de ti mest kritiske sårbarhetene i systemer som bruker store språkmodeller:
Hallusinasjon og bias
To risikoer som ikke er rene angrepsscenarier, men likevel utgjør alvorlige sikkerhetsutfordringer: hallusinasjon — modeller som presenterer feil fakta med høy selvsikkerhet — og bias, systematiske skjevheter bakt inn i treningsdata som reproduseres i modellens utfall. Begge kan ha rettslige konsekvenser, særlig i høyrisikoanvendelser som kredittvurdering, medisinsk diagnose og juridisk rådgivning, der KI-forordningen stiller krav om forklarbarhet og menneskelig tilsyn.
Internasjonale rammeverk og standarder
Det har vokst frem et sett med anerkjente rammeverk for å strukturere AI-risikostyring. De tre viktigste globalt er:
NIST AI Risk Management Framework (AI RMF 1.0)
Det amerikanske National Institute of Standards and Technology lanserte AI RMF 1.0 den 26. januar 2023. Rammeverket er frivillig og utviklet i åpen dialog med over 240 bidragsytende organisasjoner fra næringsliv, akademia og myndigheter. Det strukturerer AI-risikostyring rundt fire kjernefunksjoner: Govern (styrings- og beslutningsstrukturer), Map (kartlegge systemet og mulige konsekvenser), Measure (vurdere ytelse og risikoindikatorer) og Manage (iverksette tiltak for å redusere identifiserte risikoer). NIST AI RMF har blitt en global referansestandard og er anbefalt av både EU og OECD som utgangspunkt for ansvarlig AI-styring.
ISO/IEC 42001:2023
ISO/IEC 42001 er verdens første internasjonale standard for et kunstig intelligens-styringssystem (AI Management System, AIMS). Standarden ble publisert i desember 2023 og spesifiserer krav og gir veiledning for å etablere, implementere, vedlikeholde og kontinuerlig forbedre AI-styring i organisasjoner. Sentrale krav inkluderer risikovurdering, konsekvensanalyse av KI-systemer, livssyklusstyring og oppfølging av tredjeparts leverandører. ISO 42001-sertifisering er i ferd med å bli et konkurransefortrinn og et kontraktskrav i mange bransjer.
OWASP Top 10 for LLM-applikasjoner
OWASP (Open Worldwide Application Security Project) er kjent for sine Top 10-lister som definerer de viktigste sikkerhetsrisikoene for webapplikasjoner. I 2023 ble den første utgaven av OWASP Top 10 for Large Language Model Applications publisert, og 2025-versjonen er den gjeldende standarden. Listen er blitt en praktisk sjekkliste for utviklere og sikkerhetsteam som bygger og drifter LLM-baserte systemer — fra chatboter til autonome agenter.
AI Safety Institutes og frontier-labenes sikkerhetsarbeid
Bekymringen for risikoen ved de kraftigste AI-modellene — kalt frontier-modeller — har ført til opprettelse av dedikerte statlige og industrielle sikkerhetsorganer.
UK AI Security Institute (AISI)
Det britiske AI Safety Institute ble opprettet i november 2023 og har siden omdøpt seg til AI Security Institute (AISI) for å reflektere et klarere og smalere mandat: å evaluere sikkerhetsrisikoer ved frontier-modeller. AISI tester modeller fra ledende laboratorier for evner innen cyberkriminalitet, biologiske og kjemiske våpen, autonomi og psykologisk påvirkning.
AISIs første Frontier AI Trends Report (2025) viste at frontier-modellers evner har økt dramatisk: modeller klarer nå «lærlingnivå»-cyberoppgaver 50 prosent av tiden, mot bare 9 prosent i 2023. Enda mer alarmerende: innsatsen som kreves for å finne biologiske misbruksvektorer økte 40 ganger mellom to modellgenerasjoner lansert med bare seks måneders mellomrom — et tegn på at innebygde beskyttelsesmekanismer stadig forbedres, men at trusselen vokser i takt.
Anthropic — Responsible Scaling Policy
Anthropic, selskapet bak Claude-modellene, lanserte sin Responsible Scaling Policy (RSP) i september 2023. Politikken definerer kapabilitetsterskler — som evne til å bidra til utvikling av biologiske eller kjemiske våpen, eller evne til avansert cyberkriminalitet — og knytter disse til obligatoriske sikkerhetsnivåer (ASL-nivåer) som must oppnås før en modell kan trenes videre eller lanseres. Versjon 3.2 av RSP (april 2026) autoriserer ekstern gjennomgang av risikorapporter og formaliserte orienteringer av tilsynsorganer.
OpenAI — Preparedness Framework
OpenAI publiserte versjon 2 av sitt Preparedness Framework i april 2025. Rammeverket definerer alvorlig skade som over tusen døde eller over 100 milliarder dollar i økonomisk skade, og spesifiserer tre kategorier av frontier-kapabiliteter som krever særlig oppfølging: biologiske og kjemiske evner, cybersikkerhet og autonomi. En intern Safety Advisory Group (SAG) har ansvar for å vurdere sikkerhetsnivå for nye modeller.
Norsk og europeisk kobling — KI-forordningen og Datatilsynet
EUs KI-forordning (EU AI Act) stiller eksplisitte krav til teknisk sikkerhet for høyrisiko-KI-systemer: robusthet mot feil, nøyaktighet, cybersikkerhet gjennom hele livssyklusen, menneskelig tilsyn og grundig dokumentasjon. Høyrisikosystemer — definert i vedlegg III til forordningen, og som inkluderer systemer brukt i kritisk infrastruktur, kredittvurdering, medisinsk diagnose, rettshåndhevelse og utdanning — må gjennomgå en konsekvensutredning for grunnleggende rettigheter (FRIA) før de tas i bruk.
Norsk gjennomføringslov ble sendt på høring 30. juni 2025. Datatilsynets direktør Line Coll understreket at mange krav i KI-loven likner dem i personopplysningsloven, og at «gode rutiner for etterlevelse av personopplysningsloven vil derfor være et godt utgangspunkt» for å møte KI-lovens forpliktelser. Datatilsynet vil bidra med personvernkompetanse i det regulatoriske AI-sandkassearbeidet, mens Nkom er utpekt som koordinerende nasjonal tilsynsmyndighet for forordningen.
GDPR og KI-forordningen overlapper betydelig: DPIA (personvernkonsekvensutredning) og FRIA (konsekvensutredning for grunnleggende rettigheter) har parallelle krav. Virksomheter som allerede har modne GDPR-prosesser vil ha et forsprang, men KI-forordningens tekniske sikkerhetskrav — særlig til robusthet og cybersikkerhet — går lenger enn det GDPR alene krever.
