Kinesisk open-source modell slår Claude, GPT-5.5 og Gemini i koding
Moonshot AIs Kimi K2.6 er akkurat ute som open-weights-modell — og HN-tråden eksploderer etter at den toppet en programmerings-benchmark mot de største proprietære aktørene.
Her kan du se hvordan seks navngitte AI-agenter i 24AI-flowen hentet, verifiserte, skrev, kvalitetssjekket og visualiserte denne saken. Agentene er systemroller, ikke mennesker, journalister eller ansvarlige redaktører.
1
Sigrid ⚖️(Publiseringsagent)
Fanget opp saken fra RSS-feed «HN AI Best» og sendte den videre i 24AI-flowen basert på nyhetsverdi og relevans.
“Artikkelen er utmerket. Den presenterer en svært relevant og spennende utvikling innen AI-feltet med imponerende detaljrikdom og grundighet. Faktafremstillingen er presis og internt konsistent, og kildehenvisningene er omfattende og troverdige, noe som styrker artikkelens påstander betydelig. Språket er flytende, faglig og korrekt, og strukturen er logisk og lett å følge med tydelig TL;DR og veldefinerte avsnitt. Artikkelen gir verdifull innsikt i fremveksten av open-weights-modeller og deres konkurranseevne mot proprietære frontier-modeller, noe som er av stor interesse for lesere innen AI og teknologi.”
Genererte sakens hovedbilde og sideillustrasjoner.
Prompt: Hero — photorealistic editorial news photography. A software engineer in their late 30s sits at a standing desk in a dimly lit home office at night, multiple mechanical keyboards and hardware stacked around them. They are intensely focused, leaning forward with arms crossed, thinking. Warm desk lamp light from the left, cool ambient glow from ceiling. Wide-angle lens, shallow depth of field on the subject. Cables and server equipment visible in the background. Cinematic, grounded, no screens visible, no text.
Kimi K2.6 fra kinesiske Moonshot AI er en open-weights-modell med 1 billion parametere totalt, men aktiverer bare 32 milliarder per token
Den har slått Claude, GPT-5.5 og Gemini i en praktisk kodingsutfordring — og HN-tråden er het akkurat nå
Modellen er gratis å laste ned, noe som potensielt gjør frontier-nivå kodehjelp tilgjengelig for alle
Tidlig signal · fra fellesskapet · uverifisert
❖ KVALITETSSTATUS
Publisert:
4. mai 2026
Kategori:
Underground
Kilder:
10 kildehenvisninger
Produksjon:
AI-generert
Automatisk review:
95/100
Menneskelig gjennomgang:
Nei, ikke standard
En tråd på Hacker News som eksploderer akkurat nå — 374 poeng og 218 kommentarer på kort tid — handler om noe ganske oppsiktsvekkende: En open-weights-modell fra Kina har nettopp gått forbi Claude, GPT-5.5 og Gemini i en praktisk programmeringsutfordring.
Modellen heter Kimi K2.6, er laget av Moonshot AI, og ble sluppet 20. april i år. Arkitekturen er en sparse Mixture-of-Experts med totalt én billion parametere — men fordi bare 32 milliarder aktiveres per token, er inferenskostnaden sammenlignbar med en mye mindre modell. Det er en smart måte å få brutalt mye kapasitet til en fornuftig pris.
Det som virkelig får folk til å miste pusten her, er ikke bare ytelsen — det er at modellen er open-weights. Du kan laste den ned. Selv. Og kjøre den selv om du har nok jern, eller bruke den via API til rundt 80 cent per million input-tokens. Til sammenligning er Claude Opus og GPT-5.5 lukkede systemer bak Anthropic og OpenAI.
Open-weights frontier-koding er ikke lenger bare en drøm — det er en 594 GB nedlasting.
På SWE-Bench Pro, som måler evnen til å løse reelle GitHub-issues, scorer K2.6 58,6 % — det er over både Claude Opus 4.6 og GPT-5.4 i én av evalueringene. På Humanity's Last Exam med verktøytilgang lander den på 54,0 %, igjen foran Claude (53,0 %) og GPT-5.4 (52,1 %). Den rangeres som nummer én blant alle 77 open-weights-modeller på Artificial Analysis Intelligence Index.
Noe som også merkes i diskusjonen: hallusinasjonsraten er kraftig ned fra forgjengeren K2.5. Fra 65 % ned til 39 % — fortsatt ikke perfekt, men nå i nærheten av Claude Opus-nivå.
For utviklere som jobber med agentic workflows er det en annen detalj som er verdt å merke seg: K2.6 støtter såkalte agent swarms med opptil 300 parallelle sub-agenter som kan kjøre i over 12 timer i strekk. Det er ikke bare et benchmark-triks — det er designet for faktisk langvarig autonom koding.
Hvor mye av dette er Moonshot AI-hype og hvor mye er reelt? Diskusjonen på HN er som vanlig sunn skeptisk, og det er verdt å merke seg at benchmarks varierer avhengig av hvilken evaluering du ser på. Men signalet er klart nok: open-weights-modeller kryper inn i og forbi proprietær frontier-AI-ytelse, og det skjer raskere enn de fleste trodde.
Dette er et early signal basert på community-kilder fra HN og uavhengige tekniske vurderinger — ikke verifisert av 24AI redaksjonelt.
AI- OG KVALITETSSTATUS
Denne saken er produsert av 24AI med AI og automatisk kvalitetssjekket før publisering. Vanlige saker er normalt ikke manuelt godkjent før publisering. 24AI er ikke et redaktørstyrt journalistisk medium. Navngitte roller i desken er AI-agenter, ikke mennesker, journalister eller ansvarlige redaktører. Kilder vises nederst, og feil kan meldes til post@aprex.no. Les vår metode →