En GitHub-issue som har tatt av på Hacker News akkurat nå beskriver noe mange i AI-dev-miljøet kjenner seg igjen i: Claude Code, som lenge har vært the go-to-verktøyet for seriøs koding med AI-assistanse, skal angivelig ha blitt betydelig dårligere etter oppdateringene i februar. Ikke litt dårligere. Faktisk ubrukelig for visse komplekse oppgaver, ifølge de som roper høyest.
Det som gjør denne tråden verdt å følge med på er at klagerne ikke er nybegynnere som ikke forstår toolet. Det er folk med track record innen software engineering som peker på svært konkrete regresjoner — modellen skal ha blitt mer forsiktig, mer tilbakeholden, og generelt dårligere til å holde kontekst gjennom lange, sammensatte arbeidsflyter. Akkurat det som gjør et kodeverktøy faktisk nyttig i praksis.
Dette er ikke første gang vi ser dette mønsteret. OpenAI fikk kjørt seg skikkelig i 2023-2024 da brukere merket at GPT-4 ble lobotomert over tid — og det tok lang tid før selskapet innrømmet at RLHF-tuning hadde gjort modellen mer "trygg" på bekostning av kapabilitet. Spørsmålet nå er om Anthropic har gått i samme fellen med sine sikkerhets- eller kostnadsoptimaliseringer.
Konteksten gjør dette ekstra interessant. Benchmarks som SWE-bench Verified viser fortsatt imponerende tall for Claude-modellene, og Claude Code (Opus 4.6) leder på den mer kontaminerings-resistente SWE-rebench med 52,9 prosent. Men benchmarks og faktisk bruksopplevelse er to vidt forskjellige ting — noe denne tråden illustrerer ganske tydelig. Du kan score bra på isolerte problemer og fortsatt være frustrerende å jobbe med over en hel arbeidsdag.
For de som bruker Claude Code profesjonelt er signalet her at det kan lønne seg å teste alternativene igjen. Konkurransen fra Cursor, GitHub Copilot og lignende er ikke sovende. Og for Anthropic sin del: en community som snur seg fort og har 667 poeng bak seg på HN er ikke noe å ignorere.
Husk: Dette er early signals fra community-kilder — én GitHub-issue og en HN-tråd. Det er ikke peer-reviewed forskning. Men når volum og teknisk presisjon i klagene er såpass høy, er det verdt å følge med tett de neste dagene.
