Video blir Googles neste modellflate

Google har vist frem ni demoer av Gemini Omni og Gemini 3.5 Flash. Den mest interessante delen er Omni: en modell Google beskriver som i stand til å kombinere bilder, lyd, video og tekst som input og generere video som output.

DeepMind-modellkortet gjør saken mer konkret. Gemini Omni Flash beskrives som en transformer-basert modell med native multimodal støtte for tekst, vision, video og audio inputs. Output er video med lyd. Det flytter Gemini fra å forstå medier til også å produsere og redigere dem.

Video-AI går fra prompt til dialog: endre scenen, behold tråden, juster detaljer.

Hva demoene viser

Google viser blant annet samtalebasert video-redigering, der brukeren kan endre miljø, handling, kameravinkel eller detaljer over flere turer. Poenget er ikke bare å lage et klipp fra en prompt, men å gjøre videoen til et arbeidsobjekt som kan itereres på.

Flow-oppdateringen gir enda mer kontekst. Google sier Gemini Omni Flash kommer inn i Google Flow og Google Flow Music, med fokus på presis video-redigering, agentopplevelse og kreative workflows. Omni skal også hjelpe med karakterkonsistens, slik at identitet og stemme bevares på tvers av scener.

Gemini Omni viser Googles nye videoambisjon - Bilde 1

Gemini 3.5 Flash er den andre halvdelen

Saken handler ikke bare om video. Google bruker samme demopakke til å vise Gemini 3.5 Flash som en modell for agentiske oppgaver. DeepMind-modellkortet beskriver 3.5 Flash som en multimodal reasoning-modell med opptil 1M token input og 64K token output.

Google sier 3.5 Flash er generelt tilgjengelig via Antigravity, Gemini API i AI Studio, Android Studio, Gemini Enterprise Agent Platform og Gemini Enterprise. Den er også koblet til AI Mode i Search og rulles ut i Gemini-appen.

1M
input-kontekst for 3.5 Flash
64K
output
19. mai 2026
modellkort for Omni Flash og 3.5 Flash

Norske bruksområder og fallgruver

Norske selskaper vil raskt teste slike verktøy til kampanjer, opplæringsvideo, produktdemoer, intern kommunikasjon og sosiale formater. Gevinsten kan være stor: færre dyre opptak, raskere iterasjon og lavere terskel for lokalisert innhold.

Men video er mer risikabelt enn tekst. Det ser ferdig ut selv når det er feil. Rettigheter, personvern, merking, syntetiske personer, manipulerte hendelser og bransjeregler må håndteres før slike verktøy blir rutine.

Video-AI må styres som medieproduksjon, ikke som tekstgenerering med fancy output.

Konklusjon

Gemini Omni-demoene viser at Google ikke vil la video-AI være et sidemarked. Selskapet vil gjøre multimodal video til en del av Gemini-plattformen, tett koblet til agentarbeid, Flow, Gemini-appen og utviklerverktøy.

For norske brukere er dette både spennende og krevende. Det er en reell produksjonsmulighet, men bare hvis man bygger rutiner for merking, rettigheter, kildekontroll og menneskelig review samtidig.