En artikkel som dukket opp på Lobsters AI-scene — 0xkato.xyz — har fått uvanlig mye oppmerksomhet de siste dagene. Tittelen er nesten provoserende enkel: How LLMs Actually Work. Men det er kommentarfeltet som er grunnen til at vi noterer oss dette nå.

For det er ikke bare "ooh interessant intro til transformers"-energi i kommentarene. Det folk egentlig diskuterer, er hva som ikke er transformers — og hvorfor det kan bety noe.

Kvantiteten og kvaliteten på diskusjonen rundt RNN-varianter, altså Long Short-Term Memory (LSTM) og Gated Recurrent Units (GRU), er merkbart høyere enn man forventer fra en "introduksjonsartikkel". Det virker som mange praktikere er lei av å lese om GPT-arkitektur for tolvte gang, og heller vil snakke om hva som faktisk kjører i embedded systemer, på kant-hardware og i sanntidsapplikasjoner der transformers er for treige og for tunge.

Transformers vinner benchmark-krigen, men RNN-er vinner i praksis der det faktisk koster noe å kjøre en modell.

Dette er ikke en akademisk debatt. Embedded AI-markedet — estimert til nesten 20 milliarder dollar — kjører i all vesentlighet på RNN-baserte arkitekturer som GRU og LSTM, ikke på de store transformer-modellene vi hører om i mainstream. GRU-er er spesielt populære fordi de er raskere å trene og enklere å tune enn LSTMer, og de gjør det like bra på korte til mellom-lange sekvenser.

Alle snakker om hvordan LLM-er faktisk funker — og det er ikke transformers - Bilde 1

Det som er interessant med denne bølgen av engasjement er timingen. Vi ser parallelt at State-Space Models (SSM-er) som Mamba begynner å få mer seriøs oppmerksomhet som et tredje alternativ — verken tradisjonell RNN eller full transformer. Samtalen på Lobsters peker mot at en del utviklere er i ferd med å revurdere arkitekturvalg de tok for gitt for to år siden.

Nå er dette selvfølgelig et early signal fra community-kilder, ikke en peer-reviewed studie. Lobsters er et relativt nisjenet for teknisk orienterte utviklere, og kommentarfelt er ikke representativt for bransjen som helhet. Men akkurat den type samtaler har tidligere vært forløpere til skift i hva folk faktisk bygger.

Verdt å følge med på om denne energien rundt ikke-transformer-arkitekturer begynner å dukke opp på r/LocalLLaMA og Hacker News i løpet av de neste ukene.