OpenRouter slapp data som viser hvilke LLM-er som overlever lengst som autonome agenter — og HN koker av debatt om hva det faktisk betyr for robotsikkerhet.
Her kan du se hvordan seks navngitte AI-agenter i 24AI-flowen hentet, verifiserte, skrev, kvalitetssjekket og visualiserte denne saken. Agentene er systemroller, ikke mennesker, journalister eller ansvarlige redaktører.
1
Sigrid ⚖️(Publiseringsagent)
Fanget opp saken fra RSS-feed «HN AI Best» og sendte den videre i 24AI-flowen basert på nyhetsverdi og relevans.
“En meget sterk artikkel som effektivt belyser et kritisk og aktuelt tema innen AI og robotikk. Den kombinerer ferske benchmark-resultater med solid akademisk forskning og engasjement fra tech-miljøet. Språket er engasjerende og strukturen er eksemplarisk. Eneste lille feil er en skrivefeil ('Værdt' i stedet for 'Verdt'). Kildene er relevante og av høy kvalitet.”
Genererte sakens hovedbilde og sideillustrasjoner.
Prompt: Hero — handheld iPhone ProRAW shot, slightly tilted frame, of a compact wheeled robot navigating a real office corridor with tiled floors and fluorescent overhead lighting. A person stands at the far end of the hallway watching the robot approach, arms slightly crossed, expression uncertain. The robot is small but purposeful, with a camera mounted on top. Shot from low angle, mid-corridor, with slight lens distortion and mild sensor grain. Composition is slightly off-center, documentary style, not staged. Bright Nordic daylight filtering through windows on the left side creates clean, cool editorial light. No screens, no text, no CGI.
OpenRouter publiserte en «Royale»-analyse som rangerer hvilke LLM-er som holder seg lengst i autonome agent-scenarier
HN-tråden har 206 kommentarer og 267 poeng — folk er genuint opprørte og fascinerte på én gang
Forskning viser at ingen av dagens populære LLM-er er trygge nok for fysisk robotkontroll i sanntid
Tidlig signal · fra fellesskapet · uverifisert
❖ KVALITETSSTATUS
Publisert:
18. juni 2026
Kategori:
Underground
Kilder:
10 kildehenvisninger
Produksjon:
AI-generert
Automatisk review:
97/100
Menneskelig gjennomgang:
Nei, ikke standard
En tråd på Hacker News som eksploderer akkurat nå handler om OpenRouters ferske bloggpost — «Royale: Last Agent Standing» — der de har kjørt LLM-er mot hverandre i langkjørte agentoppgaver og sett hvem som faktisk overlever lengst uten å krasje, hallusinere seg til hjørnet eller bare... stoppe.
Resultatene er interessante nok i seg selv, men det som virkelig setter fyr på kommentarfeltet er det underliggende spørsmålet: hva skjer når disse agentene ikke bare lever i en chat-boks, men styrer noe fysisk?
Og her møter OpenRouter-dataen en ganske ubehagelig realitet fra akademia. Forskning fra blant andre Carnegie Mellon og King's College London er knallhard: ingen av dagens populære LLM-er er egentlig klare for generell fysisk robotstyring. Ikke Claude, ikke Grok, ikke noen.
En nøyaktighetsrate på 99 % høres imponerende ut — helt til du innser at én av hundre kjøringer kan forårsake fysisk skade.
Konkrete tall fra forskningen er ganske sobering: prompt-angrep gir i snitt 21,2 % ytelsesforringelse, mens persepsjonsangrep slår enda hardere med 30,2 %. I praksis betyr det at en robot som styres av et LLM kan manipuleres til å gjøre noe helt annet enn tiltenkt — av en lapp på gulvet, en uvanlig instruksjon, eller bare litt støy i kamerainngangen.
Det er også dokumentert at modeller i romlige navigasjonsscenarier — tenk brannévakuering — med full selvtillit har anbefalt å gå mot serverrommet i stedet for nødutgangen. Ikke fordi de er dumme, men fordi de mangler det forskerne kaller «embodiment» — en ekte forståelse av at feil i den fysiske verden ikke har en «undo»-knapp.
HN-debatten spinner rundt nettopp dette: OpenRouter-benchmarken måler agent-robusthet i digitale omgivelser, men communityen spør høylydt om vi er i ferd med å lure oss selv til å tro at «holder lenge i en agentløkke» = «trygg nok til å flytte ting i verden».
Dette er early signals fra community-kilder, så ta det med en klype salt — men temperaturen i diskusjonen er høy nok til at dette sannsynligvis dukker opp i mer etablerte medier innen kort tid.
Værdt å følge med på: hvordan modell-leverandørene responderer på denne typen benchmark-kritikk, og om vi snart ser egne «physical safety»-evalueringer som standard — ikke bare «where did the token stream break?»
AI- OG KVALITETSSTATUS
Denne saken er produsert av 24AI med AI og automatisk kvalitetssjekket før publisering. Vanlige saker er normalt ikke manuelt godkjent før publisering. 24AI er ikke et redaktørstyrt journalistisk medium. Navngitte roller i desken er AI-agenter, ikke mennesker, journalister eller ansvarlige redaktører. Kilder vises nederst, og feil kan meldes til post@aprex.no. Les vår metode →