En tråd på r/LocalLLaMA eksploderer akkurat nå, og den peker på en artikkel bak betalingsmur i Financial Times: DeepSeek er klar til å slippe V4 neste uke. Ikke bare som en oppgradert tekstmodell — men med innebygd bilde- og videogenerering bakt rett inn i arkitekturen fra grunnen av.
Dette er ikke moduler limt på i etterkant. Ifølge det som sirkulerer i community-en er V4 bygget som en ekte multimodal modell, der tekst, bilder og video er treningsdata fra dag én. Det betyr at modellen i teorien kan resonnere på tvers av modaliteter på en mer koherent måte enn konkurrentene — den forstår visuell kontekst mens den skriver, og forstår tekstlig intensjon mens den genererer video.
Tallene som kastes rundt er imponerende: videoer opp til 30 minutter, avansert lysrendering og materialrefleksjoner på nivå med produksjonsstudio-verktøy, pluss sterk forståelse av objektbevegelse og romlige relasjoner. Og alt dette fra en modell som angivelig aktiverer bare rundt 32 milliarder av totalt én billion parametere per token — en effektivitetsoptimalisering som skal gjøre inference vesentlig billigere enn forgjengeren V3.
Og det er nettopp der skoen trykker. Vi snakker fortsatt om early signals fra community-kilder og en paywallet FT-artikkel. Ingen har sett modellen kjøre live, og sammenligningene med Sora, Midjourney og Stable Diffusion er basert på forventede spesifikasjoner — ikke faktiske benchmarks. r/LocalLLaMA er selvsagt ekstatisk, men entusiasme i disse trådene er ikke det samme som bevis.
Det som likevel gjør dette interessant er timingen og kilden. FT er ikke akkurat et ryktested, og DeepSeek har tidligere overrasket markedet med modeller som leverte langt over hva prislappen skulle tilsi. Hvis V4 faktisk treffer neste uke med disse egenskapene, er det ikke bare et spark til OpenAI og Google — det er potensielt et jordskjelv for hele den kommersielle bilde- og videogenereringsbransjen.
Hold øye med offisielle kanaler fra DeepSeek og følg tråden på r/LocalLLaMA. Dette beveger seg fort.
