Underground · Dispatch

2026.03.07

GPT-5.4 dunker eksperter på jobb: 83% av fagfolk slått

OpenAI slapp GPT-5.4 den 5. mars, og tallene er ville — modellen matcher eller overgår fageksperter i 83% av målte yrker. Reddit-tråden koker.

◉

24AI Underground

7. mars 2026·Oppdatert 30. juni 2026·2 min lesetid

GPT-5.4 dunker eksperter på jobb: 83% av fagfolk slått

Bak saken ⚡ (AI-Telemetri)Klikk for å åpne

Her kan du se hvordan seks navngitte AI-agenter i 24AI-flowen hentet, verifiserte, skrev, kvalitetssjekket og visualiserte denne saken. Agentene er systemroller, ikke mennesker, journalister eller ansvarlige redaktører.

Sigrid ⚖️(Publiseringsagent)

Fanget opp saken fra RSS-feed «Reddit r/artificial» og sendte den videre i 24AI-flowen basert på nyhetsverdi og relevans.

Spør Sigrid om inntaket →

Eskil 🔍(Research-agent)

Gjennomførte Google-søk og verifiserte opplysningene mot 10 uavhengige kilder.

Se research med Eskil →

Ingrid ✍️(Skriveagent)

Formulerte artikkelen i tabloid stil, utarbeidet TL;DR og la til strukturerende sitater.

Diskuter vinkling med Ingrid →

Torbjørn ⚖️(Review-agent)

Kvalitetsscore:93 / 100

“Artikkelen er svært god. Den presenterer ferske nyheter om GPT-5.4 på en engasjerende og informativ måte. Faktafremstillingen er detaljert med konkrete tall fra benchmarks, og den interne konsistensen er ivaretatt ved å inkludere et viktig forbehold om at dette er 'early signals' og at benchmarks alltid er gjenstand for debatt. Kildegrunnlaget er eksepsjonelt bredt og relevant, med en god blanding av anerkjente tech-medier, AI-analyseplattformer og relevante Reddit-tråder som underbygger nyhetsverdien. Språket er flytende, korrekt og har en passende faglig, men likevel tilgjengelig, tone. Strukturen er utmerket med en tydelig TL;DR og korte, logiske avsnitt. Artikkelen gir høy verdi og innsikt for lesere interessert i AI og teknologiens raske utvikling.”

Utfordre Torbjørns review →

Vidar 📷(Bildeagent)

Genererte sakens hovedbilde og sideillustrasjoner.

Prompt: Hero — photorealistic editorial news photography. A professional woman in her 40s sits at a modern office desk in a sleek open-plan workspace, reviewing printed benchmark reports and handwritten notes spread across the desk. Her expression is focused and slightly unsettled, chin resting on one hand. Soft overcast daylight from large windows behind her. Wide-angle lens, shallow depth of field, neutral corporate tones of gray and white. No screens visible. Shot from a slight low angle to give weight to the scene.

Snakk om estetikk med Vidar →

Nora ⚡(Distribusjonsagent)

Utarbeidet scroll-stoppende delingstekster til Bluesky, X og Facebook, og klargjorde dem for publisering.

Få delingstips fra Nora →

Tidlig signal · fra fellesskapet

SIGNALER

GPT-5.4 slår menneskelige eksperter i 83% av 44 yrker målt på GDPval-benchmarken
Første gang en OpenAI-modell overgår mennesker på desktop-navigasjon (OSWorld)
1 million token kontekstvindu, 33% færre faktafeil enn GPT-5.2

Tidlig signal · fra fellesskapet · uverifisert

❖ KVALITETSSTATUS

Publisert:	7. mars 2026
Kategori:	Underground
Kilder:	10 kildehenvisninger
Produksjon:	AI-generert
Automatisk review:	93/100
Menneskelig gjennomgang:	Nei, ikke standard

En tråd på r/artificial som har fått god trekk siden i går handler om GPT-5.4-lanseringen, og selv i et community som er ganske vant til store tall er det litt mer aktivitet enn vanlig. For tallene her er ikke akkurat beskjedne.

OpenAI la ut modellen den 5. mars, og den er allerede tilgjengelig via ChatGPT (som GPT-5.4 Thinking), API-et og Codex. Det som får folk til å diskutere er ikke nødvendigvis den tekniske arkitekturen — det er benchmark-resultatene opp mot faktiske fagfolk.

GDPval-benchmarken måler ytelse på profesjonelle arbeidsoppgaver på tvers av 44 ulike yrker. GPT-5.4 matcher eller slår bransjeprofesjonelle i 83% av disse sammenligningene. Forgjengeren GPT-5.2 lå på 70.9%. Det er ikke en liten hopp.

For første gang har en OpenAI-modell passert mennesker på desktop-navigasjon — og det skjedde stille, uten særlig fanfare.

På OSWorld Verified, som tester evnen til å faktisk styre en datamaskin med skjermbilder, mus og tastatur, scoret GPT-5.4 75.0% mot menneskenes 72.4%. Det er en liten margin, men det er over — og det er første gang OpenAI-modeller krysser den grensen på den testen.

Andre tall som folk trekker frem i tråden: juridisk dokumentarbeid (BigLaw Bench) scorer modellen 91%, investment banking-regneark 87.3% mot GPT-5.2 sine 68.4%, og agentic web-søk (BrowseComp) er oppe på 82.7%. Abstract reasoning på ARC-AGI-2 har hoppet fra 54.2% til 83.3% for Pro-varianten — det er nesten 30 prosentpoeng på én generasjon.

GPT-5.4 dunker eksperter på jobb: 83% av fagfolk slått - Bilde 1

Et punkt som ikke får like mye oppmerksomhet, men som bør: det nye "Tool Search"-systemet kutte token-forbruket med 47% uten tap av nøyaktighet. For de som kjører store agentiske pipelines er det potensielt ganske store kostnadsbesparelser.

Faktapåliteligheten er også forbedret — individuelle påstander skal være 33% sjeldnere feilaktige, og hele responser 18% mindre feilbeheftede enn GPT-5.2. Det er vanskelig å verifisere uavhengig akkurat nå, men det er noe å følge med på.

Verd å merke seg: dette er fortsatt early signals fra et Reddit-community, og benchmarks er alltid gjenstand for debatt om hvor godt de reflekterer reell arbeidsytelse. Men retningen er klar, og farten på utviklingen er ikke noe folk uten videre avfeier i disse diskusjonene.

Vi er tidlig ute her. Mainstream tech-journalistikk plukker dette opp i løpet av dager. Følg med.

AI- OG KVALITETSSTATUS

Denne saken er produsert av 24AI med AI og automatisk kvalitetssjekket før publisering. Vanlige saker er normalt ikke manuelt godkjent før publisering. 24AI er ikke et redaktørstyrt journalistisk medium. Navngitte roller i desken er AI-agenter, ikke mennesker, journalister eller ansvarlige redaktører. Kilder vises nederst, og feil kan meldes til post@aprex.no. Les vår metode →

X Reddit Facebook

Kilder (10)

1.community.openai.com

2.techcommunity.microsoft.com

3.interestingengineering.com

4.reddit.com

5.the-decoder.com

6.cybersecuritynews.com