OpenAI kunngjorde denne uken GPT-5.4, den nyeste iterasjonen i GPT-5-serien. Ifølge selskapet er dette den kraftigste og mest effektive modellen de har lansert for profesjonelt bruk, med særlig vekt på koding, verktøybruk og såkalt «computer use» — evnen til å operere en datamaskin autonomt.
Kan ta kontroll over hele PC-en
Den mest bemerkelsesverdige egenskapen ved GPT-5.4 er innebygd datamaskinstyring. Modellen kan ta skjermbilder, bruke mus og tastatur, og navigere i applikasjoner og nettsider — alt uten at det kreves en separat spesialisert modell for oppgaven, ifølge OpenAIs egne beskrivelser.
Dette gjør GPT-5.4 til en sterk kandidat for utvikling av autonome agenter som kan utføre komplekse arbeidsoppgaver over tid, uten menneskelig inngripen for hvert enkelt steg.
Modellen er tilgjengelig for abonnenter på ChatGPT Plus, Team og Pro, samt gjennom Codex-plattformen og OpenAIs utvikler-API.

Hva sier benchmarkene?
Det er verdt å merke seg at mange av de tilgjengelige benchmarktallene stammer fra GPT-5.2, og at uavhengige sammenligninger av GPT-5.4 ennå er begrenset. OpenAI har foreløpig ikke publisert et fullstendig benchmarksett for den nye modellen.
Det vi vet fra GPT-5.2-målingene gir likevel et bilde av nivået: På matematikkbenchmarken AIME 2025 nådde GPT-5.2 100 prosent uten eksterne verktøy, og på kodingsbenchmarken SWE-bench Verified scoret Codex-varianten 80,0 prosent — ifølge tilgjengelig forskningsdata.

Claude og Gemini er ikke skremt
Konkurrentene ser ikke ut til å sitte stille. Anthropics Claude Opus 4.6 scorer 80,8 prosent på SWE-bench Verified — marginalt over GPT-5.2 — og har vist sterke resultater på terminalbaserte kodingsoppgaver med 65,4 prosent på Terminal-bench 2.0. Ifølge tilgjengelig sammenligningsdata fremhever mange utviklere at Claude er bedre til å tolke vage instruksjoner og holde seg til planen på lange agentoppgaver.
Googles Gemini 3.1 Pro imponerer særlig på abstrakt resonnering, med 77,1 prosent på ARC-AGI-2 — markant høyere enn Claude Opus 4.6 (68,8 prosent) og GPT-5.2 (52,9 prosent). På vitenskapelig resonnering på PhD-nivå (GPQA Diamond) scorer Gemini 3.1 Pro 94,3 prosent, mot Claudes 87 prosent.
Tre ulike profiler for tre ulike behov
Basert på tilgjengelige data tegner det seg et bilde av tre modeller med ulike styrker:
GPT-5.4
Retter seg mot profesjonell arbeidsflyt med innebygd datamaskinstyring og sterk integrasjon mot OpenAIs eget verktøyøkosystem. Passer for selskaper som vil bygge autonome agenter.
Claude Opus 4.6
Umerker seg på kompleks koding, langtidsoppgaver og situasjoner der modellen må fortolke uklare instruksjoner. Foretrukket av mange i utviklermiljøer for agentbasert arbeid.
Gemini 3.1 Pro
Sterkest på multimodale oppgaver — tekst, bilde, lyd og video — samt abstrakt og vitenskapelig resonnering. Har også det største kontekstvinduet blant de tre, med to millioner tokens på veikartet.
Kritisk blikk på kildene
Det er viktig å understreke at tallene i denne artikkelen er hentet fra en kombinasjon av OpenAIs egne kommunikasjon og sammenstilt forskningsdata, og at ulike benchmarks er kjørt på ulike modellversjoner. GPT-5.4 er så fersk at direkte sammenlignende data mot Claude Opus 4.6 og Gemini 3.1 Pro på tvers av identiske tester ennå ikke foreligger fra uavhengige aktører. Benchmark-tall fra AI-selskaper selv bør leses med forbehold.
