En tråd på Hacker News koker akkurat nå, og den handler om noe mange i AI-miljøet har snakket lavt om en stund: Er Claude faktisk så bra som Anthropic vil ha det til?

Utgangspunktet er et blogginnlegg av Nicky Reinert, publisert 24. april, der han forklarer hvorfor han kastet inn håndkleet og sa opp Claude-abonnementet sitt. Klagene er ganske konkrete – token-begrensninger som ødelegger arbeidsflyten, en følelse av at modellkvaliteten har glidd nedover, og en kundestøtte som ikke leverer når det butter imot. Ikke akkurat oppsiktsvekkende i seg selv, men reaksjonen er det.

932 poeng og 563 kommentarer på HN er mye. Det betyr at dette har truffet en nerve.

Kommentarfeltet er ikke fullt av trolls – det er fullt av betalende brukere som nikker gjenkjennende.

Det som gjør dette interessant fra et industriperspektiv er konteksten. Anthropic har posisjonert Claude – spesielt Sonnet- og Opus-variantene – som det foretrukne valget for seriøse, profesjonelle bruksområder. Modellene scorer godt på benchmarks og er særlig sterke på lange kontekstvinduer sammenlignet med mange konkurrenter. Likevel er det et gjentakende mønster i community-diskusjoner: Det som fungerer i en benchmark trenger ikke å føles riktig i daglig bruk.

Token-problematikken Reinert beskriver er dessuten noe vi ser dukke opp på tvers av plattformer. Forskning på lange kontekstvinduer viser at modeller som annonseres med 200 000 tokens ofte begynner å degradere merkbart lenge før man når taket – og den typen stille ytelsesforfall er vanskelig å dokumentere, men veldig lett å merke når man jobber med det daglig.

Hva betyr alt dette? Noen muligheter:

Brukerflukt til konkurrenter – Kommentarene nevner GPT-4o, Gemini og lokale modeller som alternativer. Det er et signal om at lojalitet til én leverandør er på vei ned.

Press på Anthropic – Når denne typen tråder tar av på HN, leser folk i bransjen det. Det er ikke usannsynlig at dette havner på interne dashboards hos Anthropic innen kort tid.

Et bredere tillitsproblem – Opplevd kvalitetsforfall er det farligste for en AI-leverandør, fordi det er subjektivt og vanskelig å motbevise med benchmarks alene.

Vær obs: Dette er early signals fra community-kilder. En viral HN-tråd er ikke det samme som systematisk brukerdata, og én misfornøyd blogger kan ikke alene fortelle oss om Claude faktisk er blitt dårligere. Men 563 kommentarer med bred gjenkjennelse er et signal som er verdt å følge med på.

Hold øye med om dette sprer seg til r/LocalLLaMA og Twitter/X de neste 48 timene.