Hacker News koker akkurat nå. Tråden på HN om Claude Opus 4.8-lansjeringen har passert 870 kommentarer og over 1000 poeng i løpet av timer — det er den slags engasjement du ser når noe faktisk treffer et nerve i community-et.

So hva er det som skjer? Anthropic lanserte altså Opus 4.8 i dag, og de er ikke spesielt beskjedne med påstandene sine. Ifølge egne data banker modellen GPT-5.5 på majoriteten av benchmarks som faktisk betyr noe i praksis: kunnskapsarbeid, koding på issue-nivå, agentisk verktøybruk og langt kontekstvindu. GPT-5.5 holder fremdeles stand i terminal- og CLI-arbeidsflyter, men ellers ser det tøft ut for OpenAI denne runden.

Det som virkelig får folk til å snakke er ikke bare råtallene. SWE-bench Verified på 88,6 % er solid, men det er SWE-bench Pro som imponerer — opp fra 64,3 % til 69,2 %. Det er den tøffere versjonen av testen, og et hopp der er meningsfylt. Databricks rapporterer at Opus 4.8 gir «et kvantesprang i agentisk resonnering» inne i deres Genie-dataagent, noe som tyder på at dette ikke bare er benchmark-gaming.

Anthropic sier modellen er fire ganger mindre tilbøyelig til å la kodefeil passere ubemerket — det er den typen reliability-forbedring som faktisk betyr noe i produksjon.

På prissiden skjer det også ting. Grunnprisen er uendret fra Opus 4.7 (5 dollar per million input-tokens, 25 dollar output), men den nye Fast mode til 10/50 dollar per million tokens gir 2,5x hastighet og er tre ganger billigere enn tilsvarende hurtigmodus i forrige generasjon. Kontekstvinduet er på én million tokens med 128K maks output — det er generøst.

Anthropic slipper Opus 4.8 — slår GPT-5.5 på 12 benchmarks - Bilde 1

HN-diskusjonen er som forventet delt. Noen er begeistret over reliability-forbedringene og trekker frem at Anthropic sammenligner Opus 4.8 med sin beste alignment-modell (Claude Mythos Preview) når det gjelder misaligned behavior rates. Andre er mer skeptiske til Anthropics egne benchmarks og venter på uavhengig testing.

Verdt å merke seg: dette er early signals basert på community-diskusjoner og Anthropics egne utgivelsesnotes. Uavhengige, systematiske evalueringer tar tid, og historien viser at offisielle benchmark-tall ikke alltid holder i praksis.

Likevel — med buzzscoren denne tråden genererer og de konkrete tekniske detaljene som allerede sirkulerer, er dette definitivt noe å følge tett de neste dagene.