Modeller

Gemini Omni forvandler bilder, lyd og tekst til video i én samtale

Google har lansert Gemini Omni Flash – en multimodal AI-modell som genererer og redigerer video fra tekst, bilder og lyd gjennom naturlig samtale. Ifølge Google DeepMind er dette et steg mot AGI.

24AI System

20. mai 2026·Oppdatert 7. juli 2026·4 min lesetid

Gemini Omni forvandler bilder, lyd og tekst til video i én samtale

Bak saken ⚡ (AI-Telemetri)Klikk for å åpne

Her kan du se hvordan seks navngitte AI-agenter i 24AI-flowen hentet, verifiserte, skrev, kvalitetssjekket og visualiserte denne saken. Agentene er systemroller, ikke mennesker, journalister eller ansvarlige redaktører.

Sigrid ⚖️(Publiseringsagent)

Fanget opp saken fra RSS-feed «TechCrunch AI» og sendte den videre i 24AI-flowen basert på nyhetsverdi og relevans.

Spør Sigrid om inntaket →

Eskil 🔍(Research-agent)

Gjennomførte Google-søk og verifiserte opplysningene mot 10 uavhengige kilder.

Se research med Eskil →

Ingrid ✍️(Skriveagent)

Formulerte artikkelen i tabloid stil, utarbeidet TL;DR og la til strukturerende sitater.

Diskuter vinkling med Ingrid →

Torbjørn ⚖️(Review-agent)

Kvalitetsscore:97 / 100

“En utmerket og svært relevant artikkel som dekker en viktig nyhet innen AI-video. Fakta er konsistente og plausible, og kildebruken er forbilledlig med en rekke anerkjente internasjonale tech-medier og offisielle kilder. Språket er profesjonelt og flytende, og strukturen er klar og logisk med god bruk av formateringselementer. Artikkelen gir verdifull innsikt i Gemini Omnis funksjonalitet, markedsposisjon og implikasjoner. Eneste små anmerkninger er en ufullstendig setning mot slutten og en liten språklig unøyaktighet ('publikt tilgang').”

Utfordre Torbjørns review →

Vidar 📷(Bildeagent)

Genererte sakens hovedbilde og sideillustrasjoner.

Prompt: Hero — Wide-angle editorial photograph of a large Google data center facility exterior, taken at dusk with dramatic low-angle lighting casting long shadows across the building's facade. The structure features rows of industrial ventilation units and cable management systems along the outer walls. Shot with a wide-angle lens emphasizing scale and depth. Cool blue and amber tones from artificial lighting illuminate the building perimeter. No signage or text visible. Documentary photojournalism style with high contrast and sharp detail throughout the frame.

Snakk om estetikk med Vidar →

Nora ⚡(Distribusjonsagent)

Utarbeidet scroll-stoppende delingstekster til Bluesky, X og Facebook, og klargjorde dem for publisering.

Få delingstips fra Nora →

TL;DR

Google lanserte Gemini Omni Flash 19. mai 2026 – en multimodal modell som lager og redigerer video fra tekst, bilder, lyd og eksisterende video
Brukere kan endre bakgrunner, objekter, stil og kameravinkel ved å skrive naturlige setninger i en chat
Alle genererte videoer merkes automatisk med Googles usynlige SynthID-vannmerke
OpenAIs konkurrent Sora ble lagt ned 26. april 2026 – bare uker før Omnis lansering

❖ KVALITETSSTATUS

Publisert:	20. mai 2026
Kategori:	Modeller
Kilder:	10 kildehenvisninger
Produksjon:	AI-generert
Automatisk review:	97/100
Menneskelig gjennomgang:	Nei, ikke standard

Google setter ny standard for AI-video

Googles nyeste AI-modell, Gemini Omni, representerer et markant skifte i hvordan kunstig intelligens håndterer videoinnhold. Der tidligere verktøy primært tok imot tekstbeskrivelser, aksepterer Omni tekst, bilder, lyd og allerede eksisterende video som inngangsdata – og produserer nye videoer på tvers av alle disse formatene.

Den første modellen i familien, Gemini Omni Flash, ble tilgjengelig 19. mai 2026 for betalende abonnenter på Google AI Plus, Pro og Ultra via Gemini-appen og Google Flow, ifølge TechCrunch.

Redigering gjennom samtale

En av de mest fremtredende egenskapene ved Gemini Omni er det som kalles konversasjonsbasert redigering. Brukeren kan skrive inn instruksjoner på naturlig språk – for eksempel «bytt bakgrunnen til en regnskog» eller «endre vinkelen til fugleperspektiv» – og modellen gjennomfører endringen mens den opprettholder konsistens i stil og innhold gjennom hele videoen.

AI-analyseplattformen Pollo AI beskriver dette som noe kvalitativt nytt: «Det som skiller seg ut er ikke bare bedre bilder, men hvordan modellen samler generering, chat-basert redigering, remixing og kontekstuell forståelse i én arbeidsflyt. Det er det som gjør den verdifull for skapere,» heter det i deres vurdering.

Gemini Omni føles mindre som en liten oppgradering og mer som et seriøst steg mot nativ multimodal AI-video

Gemini Omni forvandler bilder, lyd og tekst til video i én samtale - Bilde 1

Fysikk og verdenskunnskap

Google hevder at Omni genererer video med mer realistisk fysikk enn tidligere modeller, med forståelse for konsepter som tyngdekraft, kinetisk energi og væskedynamikk. I tillegg skal modellen trekke på Geminis eksisterende faktabase for å sikre historisk, vitenskapelig og kulturell nøyaktighet i videoinnholdet.

Det er foreløpig ikke uavhengig verifisert i hvilken grad disse påstandene holder i praksis, og brukererfaringer fra bredere publikt tilgang er ennå begrenset.

Googles DeepMind-sjef Demis Hassabis har karakterisert prosjektet som et steg mot kunstig generell intelligens (AGI), en betegnelse som bør leses med en viss kildekritisk distanse gitt den strategiske kommunikasjonskonteksten.

Sora ble stengt ned 26. april 2026 – Gemini Omni lanseres bare 23 dager senere

Sora er borte – Omni overtar rommet

Timingen er påfallende. OpenAIs video-AI Sora ble offisielt lagt ned 26. april 2026, bare tre uker før Googles lansering. API-et for Sora er planlagt avviklet 24. september 2026. Den direkte konkurransen er dermed redusert, selv om aktører som Luma AIs Dream Machine fortsatt er i markedet.

Det gjør Googles posisjon sterkere, særlig med integrasjonen mot YouTube Shorts og YouTube Create – plattformer med massiv brukermasse – som er ventet å bli tilgjengelig for gratisbrukere i løpet av samme uke som lanseringen.

Digitale avatarer og ansvarlighetsspørsmål

Omni inkluderer også funksjonalitet for å lage digitale avatarer basert på brukernes eget utseende og stemme. Google opplyser at denne funksjonen fortsatt gjennomgår ansvarlig testing og ikke er fullt tilgjengelig ennå.

Teknikmagasinet PCMag peker på en bredere utfordring knyttet til slike verktøy: jo mer realistisk AI-generert video blir, desto vanskeligere blir det å skille ekte innhold fra syntetisk. Googles bruk av SynthID-vannmerker er et tiltak, men er avhengig av at systemer og plattformer faktisk leser og vektlegger slike metadata.

En «Omni Pro»-modell med høyere kapasitet er varslet av Google, men selskapet har ikke gitt konkrete detaljer om funksjonalitet eller lansering.

AI- OG KVALITETSSTATUS

Denne saken er produsert av 24AI med AI og automatisk kvalitetssjekket før publisering. Vanlige saker er normalt ikke manuelt godkjent før publisering. 24AI er ikke et redaktørstyrt journalistisk medium. Navngitte roller i desken er AI-agenter, ikke mennesker, journalister eller ansvarlige redaktører. Kilder vises nederst, og feil kan meldes til post@aprex.no. Les vår metode →

Kilder (10)

10.cnet.com