En tråd på Hacker News som eksploderer akkurat nå — 374 poeng og 218 kommentarer på kort tid — handler om noe ganske oppsiktsvekkende: En open-weights-modell fra Kina har nettopp gått forbi Claude, GPT-5.5 og Gemini i en praktisk programmeringsutfordring.

Modellen heter Kimi K2.6, er laget av Moonshot AI, og ble sluppet 20. april i år. Arkitekturen er en sparse Mixture-of-Experts med totalt én billion parametere — men fordi bare 32 milliarder aktiveres per token, er inferenskostnaden sammenlignbar med en mye mindre modell. Det er en smart måte å få brutalt mye kapasitet til en fornuftig pris.

Det som virkelig får folk til å miste pusten her, er ikke bare ytelsen — det er at modellen er open-weights. Du kan laste den ned. Selv. Og kjøre den selv om du har nok jern, eller bruke den via API til rundt 80 cent per million input-tokens. Til sammenligning er Claude Opus og GPT-5.5 lukkede systemer bak Anthropic og OpenAI.

Open-weights frontier-koding er ikke lenger bare en drøm — det er en 594 GB nedlasting.

På SWE-Bench Pro, som måler evnen til å løse reelle GitHub-issues, scorer K2.6 58,6 % — det er over både Claude Opus 4.6 og GPT-5.4 i én av evalueringene. På Humanity's Last Exam med verktøytilgang lander den på 54,0 %, igjen foran Claude (53,0 %) og GPT-5.4 (52,1 %). Den rangeres som nummer én blant alle 77 open-weights-modeller på Artificial Analysis Intelligence Index.

Noe som også merkes i diskusjonen: hallusinasjonsraten er kraftig ned fra forgjengeren K2.5. Fra 65 % ned til 39 % — fortsatt ikke perfekt, men nå i nærheten av Claude Opus-nivå.

For utviklere som jobber med agentic workflows er det en annen detalj som er verdt å merke seg: K2.6 støtter såkalte agent swarms med opptil 300 parallelle sub-agenter som kan kjøre i over 12 timer i strekk. Det er ikke bare et benchmark-triks — det er designet for faktisk langvarig autonom koding.

Hvor mye av dette er Moonshot AI-hype og hvor mye er reelt? Diskusjonen på HN er som vanlig sunn skeptisk, og det er verdt å merke seg at benchmarks varierer avhengig av hvilken evaluering du ser på. Men signalet er klart nok: open-weights-modeller kryper inn i og forbi proprietær frontier-AI-ytelse, og det skjer raskere enn de fleste trodde.

Dette er et early signal basert på community-kilder fra HN og uavhengige tekniske vurderinger — ikke verifisert av 24AI redaksjonelt.