Fra quiz til forskerarbeid
Mange AI-benchmarker føles som skoleprøver: modellen får et spørsmål, svarer, og får poeng. PaperBench er annerledes. Her må AI-agenten gjøre noe som ligner faktisk forskningsarbeid: lese et toppkonferansepaper, forstå bidraget, bygge en kodebase, kjøre eksperimenter og levere resultater som kan vurderes.
OpenAI introduserte benchmarken i 2025 for å måle en mer krevende form for AI-kapasitet: evnen til å reprodusere ny AI-forskning. Det er viktig fordi «AI kan hjelpe forskere» ofte høres ut som en løs fremtidsvisjon. PaperBench gjør spørsmålet mer konkret: Kan agenten faktisk ta et ferskt paper og få eksperimentene til å leve?
Den vanskelige delen er ikke å forklare paperet. Den vanskelige delen er å få forskningen til å kjøre.
Hva testen består av
PaperBench bruker 20 papirer fra ICML 2024, valgt fra Spotlight- og Oral-kategorien. Agenten får i oppgave å reprodusere arbeidet fra bunnen av. Det betyr at den må forstå metoden, skrive kode, sette opp miljø, håndtere data og produsere resultater som kan sammenlignes mot en fasit.
For å gjøre dette vurderbart har OpenAI delt replikasjonsjobben opp i 8 316 individuelt graderbare oppgaver. Rubrikkene er hierarkiske og utviklet sammen med forfattere av de originale ICML-papirene. Det gjør benchmarken mer realistisk enn en enkel «pass/fail»-test.

Hvorfor dette er viktig for Norge
Norske forskningsmiljøer, startups og produktteam har ikke ubegrenset tid eller GPU-budsjett. Hvis AI-agenter etter hvert kan reprodusere eksperimenter, sjekke baseline-kode og finne implementasjonsfeil, kan det gi små team en reell forskningsmultiplikator.
Men PaperBench viser også hvor langt det er igjen. En agent som scorer 21 prosent er nyttig som assistent, men ikke klar til å drive uavhengig forskning. Den kan komme med forslag, bygge deler av systemet og avdekke feil. Den kan ikke ennå erstatte forskeren som vet når en antakelse er feil.
LLM-dommer som nødvendig kompromiss
En stor utfordring er vurderingen. Å la mennesker lese og evaluere tusenvis av agentforsøk ville vært dyrt og tregt. PaperBench bruker derfor en LLM-basert dommer som graderer mot rubrikker, og har i tillegg et eget JudgeEval-oppsett for å vurdere hvor godt dommeren fungerer.
Det er både styrken og svakheten. Automatisert gradering gjør benchmarken skalerbar. Samtidig blir spørsmålet om dommeren selv et forskningsproblem: Ser den ekte replikasjon, eller belønner den et overbevisende forsøk?
Ikke en snarvei til vitenskap
Det mest interessante med PaperBench er at den demper hypen uten å avvise potensialet. Ja, agentene kan gjøre mer enn å skrive sammendrag. Nei, de er ikke autonome forskere.
For norske virksomheter som vurderer AI i FoU, gir PaperBench et godt prinsipp: Mål agenten på komplette arbeidsflyter, ikke på demoer. Be den reprodusere noe som allerede er kjent før du lar den foreslå noe nytt.
Konklusjon
PaperBench er en av de mest nyttige 2025-benchmarkene fordi den flytter diskusjonen fra «kan AI forstå forskning?» til «kan AI gjøre forskningsarbeid?». Svaret er foreløpig: delvis, men langt fra robust.
Det er likevel et kraftig signal. Når agentene blir bedre på kode, verktøybruk og eksperimentell disiplin, kan reproduserbar forskning bli et av de første områdene der AI gir stor praktisk gevinst. Men bare hvis vi måler det hardt nok.
