En tråd på r/artificial som har fått god trekk siden i går handler om GPT-5.4-lanseringen, og selv i et community som er ganske vant til store tall er det litt mer aktivitet enn vanlig. For tallene her er ikke akkurat beskjedne.
OpenAI la ut modellen den 5. mars, og den er allerede tilgjengelig via ChatGPT (som GPT-5.4 Thinking), API-et og Codex. Det som får folk til å diskutere er ikke nødvendigvis den tekniske arkitekturen — det er benchmark-resultatene opp mot faktiske fagfolk.
GDPval-benchmarken måler ytelse på profesjonelle arbeidsoppgaver på tvers av 44 ulike yrker. GPT-5.4 matcher eller slår bransjeprofesjonelle i 83% av disse sammenligningene. Forgjengeren GPT-5.2 lå på 70.9%. Det er ikke en liten hopp.
På OSWorld Verified, som tester evnen til å faktisk styre en datamaskin med skjermbilder, mus og tastatur, scoret GPT-5.4 75.0% mot menneskenes 72.4%. Det er en liten margin, men det er over — og det er første gang OpenAI-modeller krysser den grensen på den testen.
Andre tall som folk trekker frem i tråden: juridisk dokumentarbeid (BigLaw Bench) scorer modellen 91%, investment banking-regneark 87.3% mot GPT-5.2 sine 68.4%, og agentic web-søk (BrowseComp) er oppe på 82.7%. Abstract reasoning på ARC-AGI-2 har hoppet fra 54.2% til 83.3% for Pro-varianten — det er nesten 30 prosentpoeng på én generasjon.
Et punkt som ikke får like mye oppmerksomhet, men som bør: det nye "Tool Search"-systemet kutte token-forbruket med 47% uten tap av nøyaktighet. For de som kjører store agentiske pipelines er det potensielt ganske store kostnadsbesparelser.
Faktapåliteligheten er også forbedret — individuelle påstander skal være 33% sjeldnere feilaktige, og hele responser 18% mindre feilbeheftede enn GPT-5.2. Det er vanskelig å verifisere uavhengig akkurat nå, men det er noe å følge med på.
Verd å merke seg: dette er fortsatt early signals fra et Reddit-community, og benchmarks er alltid gjenstand for debatt om hvor godt de reflekterer reell arbeidsytelse. Men retningen er klar, og farten på utviklingen er ikke noe folk uten videre avfeier i disse diskusjonene.
Vi er tidlig ute her. Mainstream tech-journalistikk plukker dette opp i løpet av dager. Følg med.
