En tråd på Hacker News som eksploderer akkurat nå handler om ATLAS — et open source-benchmarkprosjekt som angivelig viser at en GPU til rundt 500 dollar holder tritt med, eller til og med slår, Claude Sonnet på kodingsoppgaver. Prosjektet er laget av én utvikler på GitHub, og reaksjonen i kommentarfeltet er det vi elsker å følge: halvparten er genuint imponert, halvparten er skeptiske og begynner å grave.

ATLAS (AGI-Oriented Testbed for Logical Application in Science) er ikke en tilfeldig benchmark. Settet består av rundt 800 originale oppgaver laget av PhD-eksperter innen matematikk, fysikk, kjemi, biologi, informatikk og mer. Tanken er å motvirke det klassiske problemet med at modeller har pugget svarene fra treningsdataene. Oppgavene er nye, krysseksaminerende og krever LaTeX-formatert, åpen resonnering — ikke bare avkrysning.

Hvis påstanden holder vann, er dette et signal om at edge-inference nærmer seg et vendepunkt.

Men — og dette er viktig å ha med seg — prosjektet bruker det som kalles "LLM-as-a-judge"-evaluering. Det vil si at en annen språkmodell vurderer svarene. Det er ikke nødvendigvis galt, men det åpner for en klassisk fallgruve: judging-modellen kan ha blinde flekker som overlapper med modellen den evaluerer. Forskning på feltet viser at LLM-dommere kan favorisere outputs fra modeller i samme «familie», noe som kan blåse opp tallene uten at noen legger merke til det. Kommentarfeltet på HN er allerede inne på dette.

Det er også verdt å merke seg at dette er et tidlig community-signal — ikke en fagfellevurdert studie. Kilden er et GitHub-repo fra én bruker, og benchmarkmetodikken er ennå ikke uavhengig verifisert. Ta tallene som en indikasjon, ikke som fasit.

Likevel: årsaken til at dette får så mye oppmerksomhet er ikke bare tallene. Det er hva de antyder. Hvis det stemmer at lokale modeller på rimelig hardware faktisk begynner å ta inn forspranget til skybaserte tjenester på spesifikke domener som koding, er det et skifte som vil bety mye — for privacy, for kostnader og for hvem som egentlig trenger API-abonnement.

Open source-miljøet på r/LocalLLaMA har også begynt å snakke om dette, og vi forventer å se replikeringsforsøk i løpet av de neste dagene. Hold øye med om noen klarer å reprodusere resultatene uavhengig — det er den testen som virkelig teller her.