Den viktigste AI-målingen er kanskje tid
Benchmark-poeng kan være imponerende, men de sier ofte lite om arbeidsdagen. En modell kan vinne på matte, kode og kunnskap, men fortsatt falle sammen når oppgaven krever mange små valg over lang tid.
Det er dette METR prøver å fange med AI time horizon. I stedet for å spørre «hvor mange prosent riktig får modellen?», spør de: Hvor lang menneskelig oppgave kan AI-agenten gjøre alene før sannsynligheten for suksess blir for lav?
Det høres enkelt ut. Det er egentlig et ganske brutalt spørsmål.
En agent som klarer ti minutter er et verktøy. En agent som klarer ti timer begynner å ligne en arbeidstaker.
Hva 50 prosent tidshorisont betyr
METR definerer 50 prosent tidshorisont som lengden på oppgaver, målt i hvor lang tid relevante mennesker bruker på dem, som AI-systemet kan fullføre med 50 prosent suksessrate.
I 2025-paperet kombinerte forskerne blant annet RE-Bench, HCAST og nye kortere oppgaver. De timet mennesker med relevant ekspertise, lot AI-agenter prøve, og modellerte hvor raskt suksessraten falt når oppgavene ble lengre.
Resultatet: frontier-agentene har blitt kraftig bedre. METR rapporterer at tidshorisonten har doblet omtrent hver sjuende måned siden 2019, med tegn til raskere vekst i 2024.

Hvorfor dette treffer AI-sikkerhet
Tidshorisont er ikke bare en produktivitetsmåling. Den er også en sikkerhetsmåling. Jo lenger en agent kan jobbe autonomt, jo mer skade kan den gjøre hvis mål, verktøytilgang eller kontrollgrenser er feil.
En chatbot som svarer dårlig på ett spørsmål er irriterende. En agent som kan jobbe i timesvis med filer, nettleser, kode og API-er kan skape reelle problemer: feilaktige endringer, datalekkasjer, kostnadsløp eller handlinger ingen menneske har godkjent.
Alle domener er ikke like
METR fulgte opp med en analyse av hvordan tidshorisont varierer mellom domener. Der peker de på at programvare, resonnering og forskningsnære oppgaver har langt høyere tidshorisonter enn visuell datamaskinbruk som OSWorld og WebArena.
Det betyr at «AI-agent» ikke er én ting. En agent kan være sterk i kode og svak i GUI-navigasjon. Den kan svare godt på vitenskapelige spørsmål, men rote seg bort i et langt nettleserforløp.
For norske bedrifter er dette avgjørende. En bankagent, kommuneagent eller supportagent må testes i sitt eget miljø. Generelle tall er et kart, ikke terrenget.
Den praktiske konsekvensen
Hvis METRs trend holder, blir 2026 og 2027 ikke bare årene for bedre chat. De blir årene der autonom arbeidslengde blir et konkurranseparameter. Leverandører vil ikke bare selge «bedre svar», men «lengre uavbrutt arbeid».
Det gjør innkjøp vanskeligere. En leverandør som viser en flott demo på fem minutter, har ikke bevist at agenten kan håndtere en to timers oppgave. Og en agent som kan jobbe lenge, må også ha bedre logging, stoppknapper og policyer.
Konklusjon
METRs tidshorisont-måling gir AI-debatten en etterlengtet jordkontakt. Den gjør det mulig å snakke om agentkapasitet som arbeidstid, ikke bare benchmarkpoeng.
For Norge betyr det at virksomheter bør begynne å måle agentene sine på langvarige, virkelige og reversible arbeidsflyter. Hvor lenge kan de jobbe? Hvor ofte må mennesker gripe inn? Og hva skjer når de tar feil etter 47 minutter, ikke etter 47 sekunder?
