En tråd på Hacker News som eksploderer akkurat nå handler om OpenRouters ferske bloggpost — «Royale: Last Agent Standing» — der de har kjørt LLM-er mot hverandre i langkjørte agentoppgaver og sett hvem som faktisk overlever lengst uten å krasje, hallusinere seg til hjørnet eller bare... stoppe.

Resultatene er interessante nok i seg selv, men det som virkelig setter fyr på kommentarfeltet er det underliggende spørsmålet: hva skjer når disse agentene ikke bare lever i en chat-boks, men styrer noe fysisk?

Og her møter OpenRouter-dataen en ganske ubehagelig realitet fra akademia. Forskning fra blant andre Carnegie Mellon og King's College London er knallhard: ingen av dagens populære LLM-er er egentlig klare for generell fysisk robotstyring. Ikke Claude, ikke Grok, ikke noen.

En nøyaktighetsrate på 99 % høres imponerende ut — helt til du innser at én av hundre kjøringer kan forårsake fysisk skade.

Konkrete tall fra forskningen er ganske sobering: prompt-angrep gir i snitt 21,2 % ytelsesforringelse, mens persepsjonsangrep slår enda hardere med 30,2 %. I praksis betyr det at en robot som styres av et LLM kan manipuleres til å gjøre noe helt annet enn tiltenkt — av en lapp på gulvet, en uvanlig instruksjon, eller bare litt støy i kamerainngangen.

Hvilken AI styrer roboten som løper mot deg? - Bilde 1

Det er også dokumentert at modeller i romlige navigasjonsscenarier — tenk brannévakuering — med full selvtillit har anbefalt å gå mot serverrommet i stedet for nødutgangen. Ikke fordi de er dumme, men fordi de mangler det forskerne kaller «embodiment» — en ekte forståelse av at feil i den fysiske verden ikke har en «undo»-knapp.

HN-debatten spinner rundt nettopp dette: OpenRouter-benchmarken måler agent-robusthet i digitale omgivelser, men communityen spør høylydt om vi er i ferd med å lure oss selv til å tro at «holder lenge i en agentløkke» = «trygg nok til å flytte ting i verden».

Dette er early signals fra community-kilder, så ta det med en klype salt — men temperaturen i diskusjonen er høy nok til at dette sannsynligvis dukker opp i mer etablerte medier innen kort tid.

Værdt å følge med på: hvordan modell-leverandørene responderer på denne typen benchmark-kritikk, og om vi snart ser egne «physical safety»-evalueringer som standard — ikke bare «where did the token stream break?»