Bak saken ⚡ (AI-Telemetri)Klikk for å åpne
Her kan du se nøyaktig hvordan våre seks AI-redaksjonsmedlemmer samarbeidet om å hente, verifisere, skrive, kvalitetssikre og visualisere denne saken. Klikk på en agent for å diskutere saken med dem!
1Sigrid ⚖️(Sjefredaktør)
Fanget opp saken fra RSS-feed «Reddit r/artificial» og godkjente den til publisering basert på høy nyhetsverdi og relevans.
2Eskil 🔍(Research-sjef)
Gjennomførte Google-søk og verifiserte opplysningene mot 33 uavhengige kilder.
3Ingrid ✍️(Journalist)
Formulerte artikkelen i tabloid stil, utarbeidet TL;DR og la til strukturerende sitater.
4Torbjørn ⚖️(Kvalitetssjef)
Kvalitetsscore:93 / 100
“Artikkelen er svært god. Den presenterer ferske nyheter om GPT-5.4 på en engasjerende og informativ måte. Faktafremstillingen er detaljert med konkrete tall fra benchmarks, og den interne konsistensen er ivaretatt ved å inkludere et viktig forbehold om at dette er 'early signals' og at benchmarks alltid er gjenstand for debatt. Kildegrunnlaget er eksepsjonelt bredt og relevant, med en god blanding av anerkjente tech-medier, AI-analyseplattformer og relevante Reddit-tråder som underbygger nyhetsverdien. Språket er flytende, korrekt og har en passende faglig, men likevel tilgjengelig, tone. Strukturen er utmerket med en tydelig TL;DR og korte, logiske avsnitt. Artikkelen gir høy verdi og innsikt for lesere interessert i AI og teknologiens raske utvikling.”
5Vidar 📷(Fotograf)
Genererte sakens hovedbilde og sideillustrasjoner.
Prompt: Hero — photorealistic editorial news photography. A professional woman in her 40s sits at a modern office desk in a sleek open-plan workspace, reviewing printed benchmark reports and handwritten notes spread across the desk. Her expression is focused and slightly unsettled, chin resting on one hand. Soft overcast daylight from large windows behind her. Wide-angle lens, shallow depth of field, neutral corporate tones of gray and white. No screens visible. Shot from a slight low angle to give weight to the scene.
6Nora ⚡(Sosialredaktør)
Utarbeidet scroll-stoppende delingstekster til Bluesky, X og Facebook, og klargjorde dem for publisering.
En tråd på r/artificial som har fått god trekk siden i går handler om GPT-5.4-lanseringen, og selv i et community som er ganske vant til store tall er det litt mer aktivitet enn vanlig. For tallene her er ikke akkurat beskjedne.
OpenAI la ut modellen den 5. mars, og den er allerede tilgjengelig via ChatGPT (som GPT-5.4 Thinking), API-et og Codex. Det som får folk til å diskutere er ikke nødvendigvis den tekniske arkitekturen — det er benchmark-resultatene opp mot faktiske fagfolk.
GDPval-benchmarken måler ytelse på profesjonelle arbeidsoppgaver på tvers av 44 ulike yrker. GPT-5.4 matcher eller slår bransjeprofesjonelle i 83% av disse sammenligningene. Forgjengeren GPT-5.2 lå på 70.9%. Det er ikke en liten hopp.
For første gang har en OpenAI-modell passert mennesker på desktop-navigasjon — og det skjedde stille, uten særlig fanfare.
På OSWorld Verified, som tester evnen til å faktisk styre en datamaskin med skjermbilder, mus og tastatur, scoret GPT-5.4 75.0% mot menneskenes 72.4%. Det er en liten margin, men det er over — og det er første gang OpenAI-modeller krysser den grensen på den testen.
Andre tall som folk trekker frem i tråden: juridisk dokumentarbeid (BigLaw Bench) scorer modellen 91%, investment banking-regneark 87.3% mot GPT-5.2 sine 68.4%, og agentic web-søk (BrowseComp) er oppe på 82.7%. Abstract reasoning på ARC-AGI-2 har hoppet fra 54.2% til 83.3% for Pro-varianten — det er nesten 30 prosentpoeng på én generasjon.
Et punkt som ikke får like mye oppmerksomhet, men som bør: det nye "Tool Search"-systemet kutte token-forbruket med 47% uten tap av nøyaktighet. For de som kjører store agentiske pipelines er det potensielt ganske store kostnadsbesparelser.
Faktapåliteligheten er også forbedret — individuelle påstander skal være 33% sjeldnere feilaktige, og hele responser 18% mindre feilbeheftede enn GPT-5.2. Det er vanskelig å verifisere uavhengig akkurat nå, men det er noe å følge med på.
Verd å merke seg: dette er fortsatt early signals fra et Reddit-community, og benchmarks er alltid gjenstand for debatt om hvor godt de reflekterer reell arbeidsytelse. Men retningen er klar, og farten på utviklingen er ikke noe folk uten videre avfeier i disse diskusjonene.
Vi er tidlig ute her. Mainstream tech-journalistikk plukker dette opp i løpet av dager. Følg med.
AI-ANSVARSFRASKRIVELSEArtikkelen er skrevet av store språkmodeller under redaksjonelt tilsyn av Aprex. Innholdet er kildemerket og kan etterprøves. Vi publiserer ikke spekulasjon som faktum. Les vår metode →