En HN-tråd som eksploderer akkurat nå handler om noe ganske uvanlig: Anthropic har selv gått ut med en teknisk postmortem etter at en rekke brukere de siste ukene har rapportert at Claude Code — altså Anthropics kodeverktøy — har prestert dårligere enn forventet. Ikke litt dårligere. Merkbart dårligere.

Det som gjør dette interessant er ikke bare at det skjedde, men at Anthropic faktisk snakker åpent om det. Store AI-selskaper pleier ikke å publisere "her er hva vi rotet til"-innlegg på engineering-bloggen sin. Det er nærmest uhørt. Og det er akkurat derfor folk på HN sitter og diskuterer dette i stedet for å bare scrolle videre.

I kommentarfeltet er stemningen overraskende nyansert. Mange gir Anthropic kreditt for åpenheten, men det er også skepsis: Er dette et genuint forsøk på transparens, eller er det damage control fordi problemet ble for synlig til å ignorere? Noen peker på at dette er et symptom på et bredere problem i bransjen — at modeller som oppdateres kontinuerlig kan degradere på spesifikke oppgaver uten at noen egentlig vet hvorfor, fordi evalueringssystemene ikke fanger det opp i tide.

Når et AI-selskap selv skriver postmortem, betyr det at noe gikk galt nok til at taushet ikke lenger var et alternativ.

I kontekst av kodings-benchmark-landskapet er dette også verdt å merke seg. Claude Opus-familien ligger helt i toppsjiktet på SWE-bench Verified med rundt 80-81% resolve rate — tett i tett med Gemini 3.1 Pro og GPT-5.4. Fallhøyden er stor når brukere faktisk merker at verktøyet de stoler på i arbeidsflyten sin begynner å levere dårligere kode, særlig når konkurrentene pusher hardt på akkurat dette segmentet.

Det community-kildene peker på er at dette ikke nødvendigvis handler om at modellen ble «dummere» i klassisk forstand — det handler om at svært spesifikke atferdsmønstre i kode-kontekst kan forsvinne eller mutere når store modeller finjusteres eller oppdateres. Det er vanskelig å teste for alt, og reelle brukere i produksjon finner alltid kanttilfellene først.

Hva betyr dette fremover? Mest sannsynlig ingenting dramatisk på kort sikt — Anthropic er tydelig på at de jobber med det. Men det setter et viktig spørsmål på bordet: Hvem følger egentlig med på at disse verktøyene ikke stille og sakte forverres mellom oppdateringer? Og stoler vi for blindt på benchmark-tall som ikke alltid reflekterer det folk faktisk opplever?

OBS: Dette er et early signal basert på community-aktivitet på Hacker News og Anthropics egen engineering-blogg. Diskusjonen er pågående og bildet kan endre seg.