Gareth Dwyer publiserte nylig en artikkel på dwyer.co.za som akkurat nå river opp hele AI-undergrunnen på Hacker News. Tittelen sier det meste: Claude blander sammen hvem som egentlig sa hva — og Dwyer mener det ikke er ok.
Det som gjør dette ekstra interessant er at dette ikke er den vanlige "modellen finner på ting"-typen hallusinasjon vi alle er vant til å snakke om. Her ser det ut til at Claude Code, Anthropics kodingsassistent, sender meldinger til seg selv som del av intern prosessering — og deretter feilaktig tilskriver disse meldingene til brukeren. Med andre ord: modellen tror du sa noe du aldri sa, fordi den blander sin egen tankeprosess med din input.
Kommentarfeltet på HN er fullt av utviklere som nikker gjenkjennende — eller er sjokkerte. Flere beskriver lignende opplevelser med Claude Code der modellen plutselig refererer til instrukser eller kontekst som aldri ble gitt eksplisitt av brukeren. Det som tidligere ble avfeid som rare enkelttilfeller begynner nå å se ut som et systematisk mønster.
Hvorfor er dette viktig? Jo, fordi attributeringsfeil av denne typen er langt mer lumske enn vanlige hallusinasjoner. Når en modell finner opp et fakta, kan du som regel sjekke det. Men når modellen feilaktig tilskriver en handling eller et utsagn til deg — og bruker det som grunnlag for videre resonnering — kan hele konversasjonslogikken rakne uten at du nødvendigvis oppdager det.
Forskningsdata vi har sett på støtter at dette er et bredere industriproblem: GPT-4o fabrikerte eller parafraserte sitater i over halvparten av testtilfellene i visse benchmarks, mens Gemini 1.5 Pro klarte seg langt bedre. Ironisk nok har Claude tidligere blitt rost for å nekte å generere falske sitater fra offentlige personer — noe som gjør denne harness-buggen enda mer overraskende.
Dette er ett av de early signals-øyeblikkene der community-diskusjonen er mye lenger fremme enn offisielle uttalelser. Anthropic har per nå ikke kommentert saken offentlig. Om dette er en isolert implementasjonsfeil i Claude Code-harnessen eller noe som stikker dypere inn i modellens arkitektur, vet vi ikke ennå.
Verdt å følge nøye. Og kanskje dobbeltsjekke hvilke "instrukser" Claude tror den har fått fra deg neste gang du bruker den.
Kilde: Hacker News AI Best + dwyer.co.za — community-baserte early signals, ikke verifisert av Anthropic.
