En diskusjon på Product Hunt rundt Luma AI sitt nye produkt begynner å få fart, og det er grunn til å følge med. Uni-1 er ikke bare en ny bildemodell — det er en arkitektonisk avgjørelse som potensielt endrer hele tilnærmingen til visuell AI.
Her er greia: De fleste bildegenererings-modeller i dag bruker diffusjon. De starter med støy og jobber seg bakover. Uni-1 gjør noe helt annet — den bruker en decoder-only autoregressive transformer, altså samme prinsipp som GPT og LLaMA, men for bilder. Tekst og piksler lever i samme interleaved sekvens, og modellen predikerer token for token. Det betyr at den faktisk resonnerer underveis i genereringen, ikke bare etter.
Sammenlign det med hvordan DALL-E 3 funker: GPT-4 skriver om prompten din, sender den videre til en separat bildemodell. To systemer. Et "oversettingslag" imellom. Uni-1 har ikke det laget — forståelse og generering skjer i samme forward pass.
På RISEBench, en benchmark spesifikt designet for visuell resonnering, scorer Uni-1 0.51 samlet — foran Googles og OpenAIs tilsvarende modeller. Særlig på spatial reasoning (0.58) og logisk resonnering (0.32) er gapet tydelig. Dette er ikke markedsføring; det er målbare tall på at arkitekturen faktisk leverer noe nytt.
Det som gjør dette ekstra interessant for utviklere og power users: API-prisen. Rundt 9 cent per bilde på 2K-oppløsning er lavere enn sammenlignbare tjenester. Multi-referansegenerering med åtte inputbilder koster omtrent 11 cent. For folk som driver med volumgenerering eller produktutvikling, er det ikke uvesentlig.
Referansesystemet er også verdt å merke seg. Du kan gi modellen opptil ni referansebilder og tilordne dem spesifikke roller — en for stil, en for karakteren, en for belysning, og så videre. Det er en mye mer presis og eksplisitt måte å styre output på enn det vi er vant til.
Vært å understreke: dette er early signals fra community-diskusjoner og Lumas egne lanseringsdokumenter. Uavhengige benchmarks og reel-world stress-testing gjenstår. Men arkitekturen er genuint annerledes, og det begynner å sive inn i miljøene som faktisk vet hva de ser etter.
Hold øye med om r/LocalLLaMA og HN plukker dette opp de neste dagene. Når de gjør det, er Uni-1 allerede tre uker gammelt.
