LLM kjører uten OS i 1356 bytes x86-assembly — og det funker

Noen har presset Llama2-inferens inn i under 1500 bytes x86-assembly og booter det direkte fra disk — uten operativsystem. Lobsters AI-fellesskapet koker.

◉

24AI Underground

5. mai 2026·2 min lesetid

LLM kjører uten OS i 1356 bytes x86-assembly — og det funker

Tidlig signal · fra fellesskapet

SIGNALER

SectorLLM er en Llama2-inferensmotor på 1356 bytes x86 real mode assembly — booter rett fra disk, null OS
Kjører en 260K-parameter modell, ikke akkurat GPT-4 — men det er ikke poenget
Dette er ekstrem kodegolf som belyser noe viktig om hvor lite du faktisk trenger

Tidlig signal · fra fellesskapet · uverifisert

En tråd på Lobsters AI som surrer godt akkurat nå handler om prosjektet sectorllm — og konseptet er så absurd kompakt at det stopper deg midt i scrollingen.

Noen har skrevet en fungerende Llama2-inferensmotor i x86 real mode assembly, presset det ned til 1356 bytes, og fått det til å boote direkte fra en disksektor. Ingen Linux, ingen Windows, ingen runtime. Du skrur på maskinen og modellen begynner å generere tekst.

Nå er det viktig å være ærlig på hva dette faktisk er: prosjektet kjører stories260K, en leke-modell med 260 000 parametere, hardkodet arkitektur og prompt, og greedy argmax-sampling. Kontekstvindua stopper på 512 tokens. Dette er ikke noe du erstatter Claude med på fredag. Som prosjektet selv innrømmer: performance og presisjon er ikke optimale — det er en bevisst trade-off for størrelsen.

Poenget er ikke hva den kan gjøre. Poenget er at den eksisterer i det hele tatt.

Så hvorfor bryr folk seg? Fordi dette er et av de rare prosjektene som tvinger deg til å tenke grunnleggende på hva inferens egentlig krever. Hele diskusjonen i community-en dreier seg om nettopp det: hva er det absolutte gulvet? Kan man gå lavere? Hva skjer om man prøver en litt større modell — forfatteren nevner selv at stories15M sannsynligvis ville krevd en overgang til protected mode, noe som bryter hele konseptet.

Det er også en teknisk kuriositet at prosjektet opererer i x86 real mode — en modus de fleste moderne OS aldri rører, der du bare har tilgang til 1 MB adresserbart minne. At det i det hele tatt lar seg gjøre å kjøre transformer-inferens der, selv på en bitte liten modell, er ikke trivielt.

For folk som jobber med edge AI, embedded systems eller bare er nysgjerrige på det nedre sjiktet av hva moderne maskinvare kan gjøre uten abstraksjonslagene vi er vant til, er dette genuint interessant ingeniørarbeid. Det er også en påminnelse om at AI-feltet fortsatt har rom for folk som tenker i bytes, ikke bare i milliarder av parametere.

Vær klar over at dette er et early signal fra et niche community — ingen har uavhengig verifisert alle tekniske påstander ennå, og prosjektet er åpent tilgjengelig på GitHub for de som vil grave selv.

Verd å følge med på om du er i edge/embedded-verdenen.

LLM kjører uten OS i 1356 bytes x86-assembly — og det funker

Relaterte artikler

Kinesisk open-source modell slår Claude, GPT-5.5 og Gemini i koding

Claude Code nekter å jobbe hvis du nevner OpenClaw i commits

Hvem eier koden Claude Code skrev? Ingen vet svaret