iPhone 17 Pro kjører 400B-modell — men ikke spør om farten

En demo på X viser en iPhone 17 Pro som faktisk kjører en 400 milliarder parameter stor LLM lokalt. Hakket er: 0,6 tokens per sekund.

◉

24AI Underground

24. mars 2026·Oppdatert 2. april 2026·2 min lesetid

iPhone 17 Pro kjører 400B-modell — men ikke spør om farten

Tidlig signal · fra fellesskapet

SIGNALER

En demo fra kontoen @anemll på X viser en iPhone 17 Pro som kjører en 400B LLM direkte på enheten
Det fungerer takket være Flash-MoE — en teknikk som bare laster aktive deler av modellen, ikke hele greia
Ytelsen er sørgelig langsom (0,6 tokens/sek), men det er selve prinsippet som har folk i snakk

Tidlig signal · fra fellesskapet · uverifisert

En tråd på Hacker News eksploderer akkurat nå med 232 kommentarer og nesten 450 poeng — og diskusjonen dreier seg om en demo som virker nesten umulig på papiret: en iPhone 17 Pro som kjører en 400 milliarder parameter LLM lokalt, uten sky, uten ekstern maskinvare.

Det er kontoen @anemll på X som har postet demoen, og reaksjonene er alt fra «dette endrer alt» til «dette er teknisk sett juks». Sannheten ligger et sted i midten.

Hva er det egentlig som skjer?

Trikset er noe som heter Flash-MoE — en åpen kildekode-tilnærming basert på Mixture of Experts-arkitektur. Kjernetanken er at en MoE-modell ikke trenger å ha alle vektene aktive samtidig. For hvert token aktiveres bare en brøkdel av modellen. Det betyr at iPhone-ens 12 GB RAM ikke trenger å holde 200+ GB i live-minne på én gang — den laster inn de delene den faktisk trenger, løpende.

Resultatet? Det funker. Teknisk sett. Men farten er drøy: 0,6 tokens per sekund. Det vil si omtrent ett ord annethvert sekund. Ikke akkurat noe du vil chatte med i sanntid.

Det er ikke brukbart i dag — men det var heller ikke 4G i 2009.

Hvorfor bry seg da?

Fordi dette er et proof of concept, ikke et produkt. Og det er akkurat den typen demo som historisk sett varsler et skifte. For et år siden var 7B-modeller på telefon eksperimentelt. Nå er det mainstream. Grensen skyves konsekvent nedover i hardwarekrav — og Flash-MoE-tilnærmingen antyder at grensen for hva som er «for stort for en telefon» kanskje ikke er så fast som vi trodde.

Apple selv har posisjonert A19 Pro med Neural Accelerators og bedret kjølesystem nettopp for lokale LLM-workloads. De sikter åpenbart ikke på 400B-modeller — men noen utenfor Apple gjør det altså nå, med eksisterende hardware.

HN-kommentarfeltet er delt. En del mener dette er en ingeniørmessig bragd det er verdt å følge med på. Andre påpeker at «å laste deler av en modell fra lagring» ikke er det samme som ekte lokal inferens i tradisjonell forstand, og at sammenligningen halter.

Uansett: dette er early signal-territorium. Ingen mainstream tech-redaksjon har plukket det opp ennå, og det er nettopp derfor det er verdt å merke seg nå.

Kilde: @anemll på X, diskutert på Hacker News (HN AI Best). Dette er community-drevne observasjoner — ikke verifisert av uavhengige benchmarks ennå.

iPhone 17 Pro kjører 400B-modell — men ikke spør om farten

Relaterte artikler

Gratis AI gjemt i Macen din — ingen vet om den

AMD slår tilbake: Lemonade gjør lokal LLM på AMD-brikker faktisk brukbart

Anthropics kildekode lekket: hemmelige agenter, kodename og sabotasje avslørt