De stadig voksende kostnadene ved å kjøre AI-modeller i produksjon — såkalt inferens — har lenge vært en flaskehals for selskaper som ønsker å ta kunstig intelligens i bruk i stor skala. Nå annonserer Google Cloud og NVIDIA et samarbeid som lover å snu dette bildet radikalt.

Nye A5X-instanser skal halvere regningen — og mer til

Under Google Cloud Next-konferansen, som fant sted 22.–23. april 2026, presenterte de to teknologigigantene det de beskriver som en ny generasjon AI-infrastruktur. Kjernen i tilbudet er såkalte A5X bare-metal-instanser, som er bygget på NVIDIA Vera Rubin NVL72 rack-scale-systemer, ifølge AI News.

Gjennom tett samkjøring mellom maskinvare og programvare — det som i bransjen kalles «co-design» — hevder partene at den nye arkitekturen kan levere inntil ti ganger lavere inferenskostnad per token og ti ganger høyere token-gjennomstrømning per megawatt sammenlignet med forrige generasjon.

Ti ganger lavere inferenskostnad per token er ikke en marginal forbedring — det er en potensiell omstrukturering av AI-budsjetter i hele bransjen.

Det er viktig å understreke at Google Cloud ennå ikke har offentliggjort konkrete timepriser for A5X-instansene. Påstandene om kostnadsforbedringer er per nå basert på selskapets egne oppgitte ytelsesmål og kan ikke uavhengig verifiseres.

NVIDIA og Google lover 10x billigere AI: Norske selskaper kan spare millioner

Massiv skaleringsevne

En av de mer slående tekniske spesifikasjonene er systemets evne til å skalere. A5X-instansene bruker NVIDIA ConnectX-9 SuperNIC-er kombinert med Googles eget Virgo-nettverk. Dette skal muliggjøre klynger på opptil 80 000 NVIDIA Rubin-GPU-er innenfor ett enkelt datasenter, og videre opp til 960 000 GPU-er fordelt på flere lokasjoner.

Målet er å håndtere det som beskrives som agentic AI og physical AI i stor skala — altså AI-systemer som handler autonomt og potensielt samhandler med den fysiske verden.

NVIDIA og Google lover 10x billigere AI: Norske selskaper kan spare millioner

Konkurransesituasjonen: AWS svarer med kutt

A5X-lanseringen skjer ikke i et vakuum. Amazon Web Services har allerede gjennomført prisreduksjoner på sin GPU-infrastruktur. Ifølge tilgjengelig prisinformasjon kostet en AWS P5-instans med åtte NVIDIA H100-GPU-er rundt 60 dollar per time før sommeren 2025. Etter at AWS kunngjorde reduksjoner på opptil 45 prosent falt prisen til omtrent 33–34 dollar per time. Spotkjøp og Savings Plans kan ifølge markedsdata presse GPU-prisen ned mot 1,90–2,10 dollar per GPU-time.

AWS tilbyr også sine egne skreddersydde brikker. Inferentia-baserte instanser markedsføres med inntil 70 prosent lavere kostnad per inferens sammenlignet med tilsvarende EC2-instanser, mens Trainium2 hevdes å gi 30–40 prosent bedre pris-ytelse enn P5-instansene.

10x
Lovet kostnadsreduksjon (token/inferens) på A5X
45%
AWS' prisreduksjon på H100 P5-instanser (2025)

Hva betyr dette for norske selskaper?

For norske virksomheter som allerede kjører eller planlegger å kjøre AI i produksjon er utviklingen potensielt viktig. Inferenskostnader — altså hva det koster å faktisk bruke en ferdigtrenet modell — utgjør for mange bedrifter den største løpende AI-utgiften, og overgår ofte kostnadene ved selve treningen.

Hvis Google Clouds påstander holder i praksis, kan selskaper innen finans, helse, energi og industri — sektorer der Norge har tunge aktører — se markant lavere driftskostnader for AI-baserte systemer. Men siden A5X foreløpig er rettet mot massiv skala, er det primært de største aktørene som i første omgang vil ha tilgang.

Inferenskostnader er den skjulte utgiftsposten i norsk AI-satsing — og nå presses prisene nedover fra flere hold.

Inntil Google Cloud publiserer faktiske priser og uavhengige benchmarks foreligger, bør norske IT-sjefer og innkjøpere behandle de lovede ytelsestallene som indikasjoner snarere enn garantier. Konkurransen mellom Google og AWS er imidlertid reell, og presset på prisene ser ut til å fortsette nedover uavhengig av hvilken plattform som ender med å ta ledelsen.