Konvensjonell visdom har lenge vært at pseudonymitet – å poste på nett uten fullt navn – gir rimelig god beskyttelse for vanlige brukere. Ikke fordi det er umulig å knekke, men fordi det koster for mye tid og ressurser. Den beskyttelsen er nå i ferd med å forsvinne.

Ny forskning fra ETH Zürich, UC Berkeley, Anthropic, Google og Machine Learning Alignment Theory Scholars-programmet dokumenterer at store språkmodeller (LLM-er) kan deanonymisere nettbrukere i stor skala – raskere, billigere og mer presist enn noen tidligere metode.

Identifiserte 226 av 338 brukere for under 20 000 kroner

I et sentralt eksperiment koblet forskerne pseudonyme Hacker News-brukere til virkelige LinkedIn-profiler fra en pool på 89 000 kandidater. Resultatet: 226 av 338 brukere ble korrekt identifisert, noe som tilsvarer 67 % recall ved 90 % presisjon, ifølge forskningsmaterialet. Klassiske metoder oppnådde til sammenligning nærmere null prosent treffsikkerhet ved tilsvarende presisjonsnivå.

Total kostnad for hele eksperimentet: under 2 000 amerikanske dollar – rundt 20 000 norske kroner. Per person tilsvarer det mellom 14 og 56 kroner, avhengig av skala og metodikk.

67 %
Recall ved 90 % presisjon (Hacker News)
45 %
Recall ved 99 % presisjon (Reddit)

For Reddit-brukere som postet i filmforum ble opptil 45 % recall ved 99 % presisjon oppnådd. I ett forsøk ble kommentarhistorikken til enkeltbrukere delt i to med ett års mellomrom – og to tredjedeler ble likevel korrekt matchet. Med tradisjonelle metoder lå tilsvarende tall under én prosent.

AI avslører hvem du er fra tekstpostene dine – for 12 kroner

ESRC: Firetrinns-maskinen som leser deg

Bak resultatene ligger en metodikk kalt ESRC – Extraction, Search, Reasoning og Calibration. Systemet arbeider utelukkende med ustrukturert tekst og krever ingen manuell innsats fra etterforsker.

Systemet skiller seg grunnleggende fra eldre deanonymiseringsangrep – som det kjente Netflix Prize-angrepet fra 2008 – som krevde strukturerte datasett. ESRC opererer direkte på rå, ubearbeidet forumtekst.

AI avslører hvem du er fra tekstpostene dine – for 12 kroner

«Praktisk uklarhet» er ikke lenger nok beskyttelse

Forskerne peker på at et sentralt personvernprinsipp nå er satt under press: praktisk uklarhet – tanken om at selv om deanonymisering teknisk sett er mulig, er den så ressurskrevende at den sjelden utføres i praksis.

Spør deg selv: kunne et team av smarte etterforsker finne ut hvem du er fra postene dine? Hvis ja, kan LLM-agenter sannsynligvis gjøre det samme – og kostnaden synker bare

Det er medforsker Simon Lermen ved ETH Zürich som formulerer det slik, ifølge forskningsmaterialet. Hovedforsker Daniel Paleka sier han ble overrasket over «hvor lite informasjon som trengs for å koble to kontoer».

Modellene kan også slutte seg til personlige attributter – bosted, inntektsnivå, alder og yrke – med opptil 85 % treffsikkerhet fra Reddit-poster alene, ifølge det samme forskningsmaterialet.

Norske implikasjoner: GDPR og pseudonymisering under press

For norske virksomheter og offentlige etater er dette langt fra en abstrakt akademisk diskusjon.

Under GDPR regnes pseudonymisering som et anerkjent teknisk tiltak for å redusere risiko ved behandling av personopplysninger. Datatilsynet og europeiske tilsynsmyndigheter har i praksis akseptert godt gjennomført pseudonymisering som et element i risikovurderinger etter personvernforordningens artikkel 25 og 32.

Når en kommersiell aktør kan bryte pseudonymiteten for under 50 kroner per person ved hjelp av åpent tilgjengelige AI-APIer, svekkes det tekniske grunnlaget for slike vurderinger betraktelig.

GDPR-artikkelen om pseudonymisering ble ikke skrevet for en verden der en språkmodell kan re-identifisere folk for prisen av en kopp kaffe.

Dette berører særlig:

Offentlig sektor: Norske kommuner, helseforetak og NAV gjennomfører stadig mer datadrevet analyse basert på pseudonymiserte datasett. Hvis pseudonymisering ikke lenger gir tilstrekkelig beskyttelse mot re-identifisering, kan det kreve en fullstendig revisjon av databehandlingsavtaler og konsekvensutredninger (DPIA).

Næringsliv: Bedrifter som bruker kundedata, brukeranmeldelser eller ansattundersøkelser under forutsetning av anonymitet, kan stå overfor reell juridisk eksponering dersom dataene faktisk er re-identifiserbare.

Forskning og journalistikk: Anonymiserte intervjuer og kildebeskyttelse er under press. I forsøket mot det delvis redigerte Anthropic Interviewer-datasettet – intervjuer med navngitte forskere – ble 9 av 33 anonymiserte personer korrekt identifisert med 82 % presisjon.

Hva betyr dette fremover?

Forskerne anslår at rundt 27 % recall er oppnåelig i internettskal – altså mot datasett med millioner av kandidater – et nivå som ikke kan matches av ikke-LLM-baserte metoder. Mot en million kandidater projiseres 35 % recall ved 90 % presisjon.

Det er verdt å understreke at forskningen foreløpig beskriver hva som er teknisk mulig under kontrollerte forhold. Metodene er ikke validert i alle mulige reelle angrepssituasjoner, og det er legitime spørsmål om overføringsverdien til alle typer pseudonymiserte datasett. Likevel er retningen tydelig nok til at tilsynsmyndigheter, jurister og systemansvarlige bør ta stilling til implikasjonene nå.

Forskningsmaterialet er publisert med tilknytning til ETH Zürich, UC Berkeley, Anthropic og Google, og er omtalt av Ars Technica (mars 2026).