Ok, dette er verdt å følge med på. AMD har stille og rolig sluppet Lemonade — en åpen LLM-server som er bygget spesifikt for å kjøre store modeller lokalt på AMD-hardware, inkludert både GPU og NPU. Og HN-fellesskapet har fått øynene opp for det.
Threaden på Hacker News er et av de tydeligere early signalene vi har sett på en stund innen open source AI. Folk er ikke bare nysgjerrige — de er genuint imponerte. AMD-ansatte demonstrerte nylig at Lemonade med ROCm 7 beta klarer å kjøre GPT-OSS-120B (altså en 120 milliarder parameter-modell) lokalt på en AMD PC med Strix Halo-arkitektur. Det er ikke småtteri.
Hvorfor er dette interessant? Fordi lokal LLM på AMD alltid har vært litt sånn "joda, det funker, men ikke spør meg om support". ROCm-stacken har hatt et fortjent rykte som frustrerende å sette opp, spesielt på consumer-hardware. Lemonade virker som et forsøk på å pakke hele greia inn i noe faktisk brukbart — med llama.cpp som backend og støtte for NPU-akselerasjon i tillegg til GPU.
Ytelsestallene fra forskningsmiljøet er også verdt å nevne: AMD Instinct MI300X slår faktisk H100 på flere inference-benchmarks takket være massivt minnebåndbredde (5,3 TB/s mot H100s 3,35 TB/s). På consumer-siden er det fortsatt NVIDIA som leder, men RX 7900 XTX henger med på 80% av RTX 4090-ytelse til rundt 40% lavere pris.
Det som virkelig får HN-tråden til å gå varmt, er kombinasjonen av to ting: AMD-backing (dette er ikke et hobbyprosjekt) og den åpne tilnærmingen. Hele stacken kan inspiseres, modifiseres og bygges videre på. For de som er skeptiske til CUDA-monopolet, er dette catnip.
Kildevurdering: Dette er basert på en community-tråd på Hacker News og AMDs egne demonstrasjoner — ta det som et early signal, ikke en gjennomtestet produktanmeldelse. ROCm har fortsatt kjente svakheter med tooling og Linux-støtte utenfor de store distribusjonene.
Men retningen er klar: AMD presser på, og Lemonade er det mest konkrete beviset vi har sett på at de mener alvor med lokal AI. Hold øye med dette.
