En tråd på Hacker News eksploderer akkurat nå med 232 kommentarer og nesten 450 poeng — og diskusjonen dreier seg om en demo som virker nesten umulig på papiret: en iPhone 17 Pro som kjører en 400 milliarder parameter LLM lokalt, uten sky, uten ekstern maskinvare.
Det er kontoen @anemll på X som har postet demoen, og reaksjonene er alt fra «dette endrer alt» til «dette er teknisk sett juks». Sannheten ligger et sted i midten.
Hva er det egentlig som skjer?
Trikset er noe som heter Flash-MoE — en åpen kildekode-tilnærming basert på Mixture of Experts-arkitektur. Kjernetanken er at en MoE-modell ikke trenger å ha alle vektene aktive samtidig. For hvert token aktiveres bare en brøkdel av modellen. Det betyr at iPhone-ens 12 GB RAM ikke trenger å holde 200+ GB i live-minne på én gang — den laster inn de delene den faktisk trenger, løpende.
Resultatet? Det funker. Teknisk sett. Men farten er drøy: 0,6 tokens per sekund. Det vil si omtrent ett ord annethvert sekund. Ikke akkurat noe du vil chatte med i sanntid.
Hvorfor bry seg da?
Fordi dette er et proof of concept, ikke et produkt. Og det er akkurat den typen demo som historisk sett varsler et skifte. For et år siden var 7B-modeller på telefon eksperimentelt. Nå er det mainstream. Grensen skyves konsekvent nedover i hardwarekrav — og Flash-MoE-tilnærmingen antyder at grensen for hva som er «for stort for en telefon» kanskje ikke er så fast som vi trodde.
Apple selv har posisjonert A19 Pro med Neural Accelerators og bedret kjølesystem nettopp for lokale LLM-workloads. De sikter åpenbart ikke på 400B-modeller — men noen utenfor Apple gjør det altså nå, med eksisterende hardware.
HN-kommentarfeltet er delt. En del mener dette er en ingeniørmessig bragd det er verdt å følge med på. Andre påpeker at «å laste deler av en modell fra lagring» ikke er det samme som ekte lokal inferens i tradisjonell forstand, og at sammenligningen halter.
Uansett: dette er early signal-territorium. Ingen mainstream tech-redaksjon har plukket det opp ennå, og det er nettopp derfor det er verdt å merke seg nå.
Kilde: @anemll på X, diskutert på Hacker News (HN AI Best). Dette er community-drevne observasjoner — ikke verifisert av uavhengige benchmarks ennå.
