En analyse-artikkel på Lobsters AI som sirkulerer i AI-undergrunnsmiljøet akkurat nå dissekerer ThunderKittens — og kommentarfeltet begynner å boble. Dette er ikke en nyhet folk flest har fått med seg ennå, men blant de som faktisk skriver CUDA-kjerner for levebrødet, er dette et navn som dukker opp stadig oftere.

Så hva er greia? ThunderKittens er en DSL (domain-specific language) som lever inne i CUDA, laget av Stanfords Hazy Research Lab. Tanken er å gi deg et høynivå-abstraksjonslag som lar deg programmere GPU-hierarkiet — warp-grupper, tiles, shared memory — uten at du mister kontrollen over hva som faktisk skjer i maskinen. Det er en slags mellomvei mellom å skrive rå CUDA (smertefull, men rask) og å bruke Triton (enklere, men med ytelsestak).

14x raskere enn Triton på linear attention er ikke en finjustering — det er et arkitektonisk hopp.

Tallene som siteres fra Hazy Research er brutale hvis de holder: FlashAttention-forward på H100 er 30% raskere enn FA2. Mamba-2-implementasjoner er "several times faster" enn Triton-versjonen. På linear attention-modeller som Based og LoLCATS Hedgehog snakker vi 14x og 6.5x speedup. ThunderKittens 2.0, som kom i februar i år, hevder å slå cuBLAS på B200-er for BF16 og de nye MXFP8/NVFP4-formatene.

Det er verdt å merke seg: dette er tall fra laboratoriet som laget verktøyet selv, ikke fra en uavhengig benchmark-studie. Community-kilden her er altså primært Stanfords egne publiseringer og bloggposter — og det finnes foreløpig ingen stor, nøytral sammenlignende studie som tar ThunderKittens, Triton og TVM opp mot hverandre på like vilkår. Ta tallene seriøst, men hold litt igjen til replikasjonsstudier dukker opp.

Det som gjør dette spesielt interessant er ikke bare ytelsen, men posisjoneringen. Triton (OpenAI/Meta) har blitt defacto-standarden for folk som vil unngå rå CUDA, men ThunderKittens peker på et reelt ytelsestak i Triton — spesielt på Hopper- og Blackwell-arkitekturene der WGMMA-instruksjoner og TMA-dataflyt er kritiske. ThunderKittens er bygget nettopp for disse.

Hvis dette skalerer og community-adopsjonen tar seg opp, kan vi se et skifte i hvordan de mest ytelseskritiske AI-kjernene skrives — spesielt i forskningsmiljøer som jobber med nye attention-mekanismer og state space models. Det er det rommet ThunderKittens tydelig sikter mot.

Verd å følge med på. Dette er fortsatt et early signal fra community-kilder, men buzzen er ekte.