En diskusjon som begynner å få fart på seg på Lobsters AI akkurat nå handler om noe som burde bekymre alle som bygger AI-agenter eller deployer LLM-er i produksjon: prompt injection forstått som rolle-forvirring.

Forskerne Charles Ye, Jasmine Cui og Dylan Hadfield-Menell har publisert en analyse som argumenterer for at LLM-er i bunn og grunn prosesserer all input som én stor tekststrøm. Modellen infererer hvem som snakker ut fra hvordan teksten låter — ikke fra den faktiske, tekniske kilden. Det betyr at hvis en angriper klarer å skrive input som «høres ut som» en systemmelding eller intern resonnering, tolker modellen det faktisk som om det er det.

Rolle-grensene som utviklerne designer i prompts, løser seg opp inne i modellens latente rom.

Dette er ikke den vanlige «jailbreak»-diskusjonen om å lure modellen til å spille en karakter eller omgå innholdsfiltre. Det handler om noe mer fundamentalt: at modellen ikke har en pålitelig intern mekanisme for å skille mellom betrodde og ubetrodde instruksjoner. Jailbreaking er gjerne sosial manipulasjon. Rolle-forvirring er en arkitektonisk brist.

Den praktiske konsekvensen er angrepet de kaller «CoT Forgery» — der en angriper injiserer falske tankekjeder (chain-of-thought-resonnering) i konteksten. Modellen plukker det opp som sin egen interne logikk og handler deretter. I testene oppnådde dette en gjennomsnittlig suksessrate på 60 % på StrongREJECT-benchmarken og 61 % på agent-eksfiltrasjonsscenarier. Fra nær null som baseline. Det er høye tall.

LLM-er vet ikke hvem som snakker — og det er et kjempeproblem - Bilde 1

Det som gjør dette ekstra relevant akkurat nå er at AI-agenter — systemer som bruker LLM-er til å hente data, kjøre kode og handle autonomt — er i ferd med å bli mainstream i enterprise-stack. Hvis modellen ikke kan stole på sin egen forståelse av hvem som gir instruksjoner, er tillitskjeden i hele agentarkitekturen potensielt kompromittert.

Kilden her er en diskusjonstråd på Lobsters AI, som lenker til en dedikert forskningsside. Dette er tidlige community-signaler — ikke en publisert, fagfellevurdert studie ennå, så ta det med den forbeholdet. Men engasjementet i kommentarene tyder på at fagmiljøet tar dette seriøst.

Dette bør være på radaren til alle som jobber med sikkerhet i LLM-applikasjoner — og spesielt de som bygger systemer der modellen har tilgang til sensitive data eller kan utføre handlinger med konsekvenser utenfor sandkassen.