Anonym koreaner hevder å ha bevist at Attention aldri var et n²-problem

Et ubekreftet matematisk bevis fra et koreansk forum sprer seg som ild i tørt gress på r/MachineLearning. Påstanden: Transformerens største flaskehals er en illusjon skapt av softmax.

En tråd på r/MachineLearning som beveger seg raskt akkurat nå handler ikke om GPT-5 eller Gemini Ultra — det handler om et PDF-vedlegg fra en navnløs bruker på et koreansk AI-forum. En bruker fra "The Singularity Gallery"-community følte beviset var for viktig til å bli begravd i en lokal tråd, og oversatte og delte det globalt. Resultatet: 197 poeng og en kommentarseksjon der folk faktisk jobber gjennom ligningene i stedet for å posture.

Selve påstanden er kontroversiell på den beste måten. I ni år har vi levd med at self-attention er et O(n²d)-problem — kvadratisk i sekvenslengen n. Det er derfor lange kontekstvinduer er så kostbare, og det er grunnen til at hele industrier av forskning har handlet om å komme rundt dette. Flash Attention, sparse attention, linear attention — alt er i bunn og grunn workarounds for n².

Det anonyme beviset, kalt "The d² Pullback Theorem", argumenterer for at n²-flaskehalsen er selvpålagt. Softmax-normaliseringen, selve hjertet i klassisk attention, tvinger attention-matrisen til full rank n og ødelegger det forfatteren kaller en "Euclidean Matching structure". Med andre ord: vi har betalt en astronomisk regnepris for en matematisk egenskap vi selv innførte.

Løsningen som foreslås er "Centered Shifted-Quadratic (CSQ) Attention" — softmax erstattes av et grad-2 polynomkjernel (x²). Det gir ifølge beviset O(nd³) kompleksitet, noe som betyr at for store nok sekvenser er dette potensielt en dramatisk forbedring.

Hvis dette holder, har vi i ni år betalt n²-prisen for et problem som egentlig var d²-dimensjonalt.

Nå er det viktig å holde hodet kaldt her. Dette er et early signal fra community-kilder, ikke et fagfellevurdert paper. Ingen har ennå bekreftet beviset formelt, og det finnes gode grunner til at softmax faktisk er der det er — blant annet treningsstabilitet og interpretability. Kommentarfeltet på Reddit er delt: noen mener matematikken ser solid ut, andre peker på mulige hull i argumentasjonen rundt hva CSQ-attention faktisk bevarer av attention-semantikk.

Men det er nettopp spenningen her som gjør dette verdt å følge. Hvis en enkelt anonym post fra et koreansk forum starter en seriøs debatt om Transformer-arkitekturens fundamentale kompleksitet, er det et tegn på at community-driven forskning begynner å matche institusjonell forskning i gjennomslagskraft. Hold øye med om noen større navn begynner å kommentere — det vil si mye om hvorvidt dette fortjener en full replikasjonsstudie.

Anonym koreaner hevder å ha bevist at Attention aldri var et n²-problem

Relaterte artikler

Gratis AI gjemt i Macen din — ingen vet om den

AMD slår tilbake: Lemonade gjør lokal LLM på AMD-brikker faktisk brukbart

Anthropics kildekode lekket: hemmelige agenter, kodename og sabotasje avslørt