Kampen om å levere flest mulig AI-svar per investerte krone er i ferd med å bli den viktigste konkurransen i teknologibransjen. NVIDIA har nylig løftet frem sin samlede programvare- og maskinvarestabel som den mest kostnadseffektive løsningen for storskala AI-inferens — men utfordrerne er tettere på enn selskapet gjerne vil innrømme.

NVIDIA satser på helhetlig programvaredesign

IFølge NVIDIA-bloggen har selskapet bygget inferensprogramvaren tett integrert med egne GPUer, CPUer, nettverkskomponenter og servere. Tanken er at denne samkjøringen — kombinert med et bredt åpen kildekode-økosystem — gir organisasjoner den laveste kostnaden per token når de skalerer fra AI-piloter til fullskala produksjon.

Selskapet argumenterer for at infrastrukturbeslutninger i 2026 ikke lenger handler om toppytelse på papir, men om konkrete mål: hvor mange nyttige tokens man kan levere per dollar, per watt og innenfor akseptable responstider.

Infrastrukturbeslutninger har skiftet fra toppspesifikasjoner til kostnad per token — per dollar, per watt og innenfor krevde latenskrav

Dette budskapet treffer et marked i sterk vekst. Ifølge bransjeanslag vil AI-inferens stå for mellom 70 og 80 prosent av samlet AI-beregningsbehov innen 2035, og kan utgjøre 80–90 prosent av et produksjonssystems totale livstidskostnader.

NVIDIA hevder lavest kostnad per token – her er konkurransen - Bilde 1

Konkurrentene har konkrete tall å vise til

Selvom NVIDIA fremdeles dominerer markedet, presenterer de viktigste alternativene dokumenterte kostnadsfordeler i spesifikke brukstilfeller.

65%
Kostnadsreduksjon Midjourney oppnådde ved å bytte fra NVIDIA til Google TPU v6e
70%
Anslått kostnadsreduksjon per token ved oppgradering fra TPU v6 til TPU v7

Google TPU: størst dokumentert innsparing

Bildetjenesten Midjourney skal ifølge tilgjengelige opplysninger ha redusert månedlige inferenskostnader fra to millioner dollar til 700 000 dollar etter overgang til Googles TPU v6e — en nedgang på 65 prosent. Gjennomstrømningen for generative oppgaver skal samtidig ha tredoblet seg. Google oppgir at TPU v6e leverer rundt 30 prosent lavere kostnad per token enn H100 for store batcher under stabile driftsbetingelser.

AWS Inferentia: spesialisert og rimelig

AWSs Inferentia2-brikke er designet spesielt for inferensoppgaver. Ifølge tilgjengelig dokumentasjon kan Llama 70B-distribusjoner koste 9 348 dollar per måned på Inferentia2, mot 23 595 dollar på tilsvarende GPU-instanser — en besparelse på nær 60 prosent. Selskaper som Actuate og Finch Computing rapporterer henholdsvis 91 og 80 prosent lavere inferenskostnader etter optimalisering med AWS Neuron SDK.

AMD MI300X: minnekapasitet som fordel

AMDs MI300X skiller seg ut med 192 GB HBM-minne på ett enkelt kort — mer enn dobbelt så mye som NVIDIAs H100 SXM. For inferens med store språkmodeller og lange kontekstvinduer, der minne er den begrensende faktoren, kan dette gi AMD et reelt konkurransefortrinn.

Intel Gaudi 3: halv pris, men lavere råytelse

Intels Gaudi 3 er prissatt til omtrent halvparten av et H100-kort. Brikkene har 128 GB HBM2e-minne per enhet, men er generelt tregere enn H100 og H200 i rå ytelse. Intel argumenterer likevel for at pris-ytelse-forholdet er konkurransedyktig, særlig i scenarioer med korte innganger og lange utganger.

Hva betyr dette for de som velger infrastruktur?

Det er viktig å understreke at mange av tallene fra konkurrentene stammer fra egne benchmarks, utvalgte brukstilfeller eller kundecaser med optimal konfigurasjon. Direkte, uavhengig sammenligning av kostnad per token på tvers av plattformer er krevende, fordi resultatene varierer med modellstørrelse, batchstørrelse, latenskrav og arbeidsbelastning.

NVIDIAs styrke ligger fremdeles i bredde: et modent programvareøkosystem, bred modellstøtte og en etablert utviklingsbase gjør plattformen til et lavrisikovalg for de fleste organisasjoner. Men ettersom inferens utgjør en stadig større andel av AI-budsjettet, vil spesialiserte alternativer bli vurdert mer seriøst.

Kostnad per token er den nye målestokken — og ingen enkelt leverandør vinner på alle fronter

Markedet for AI-inferens er i rask utvikling, og det er ingenting som tyder på at NVIDIAs dominans er uutfordret. For virksomheter som nå skalerer AI i produksjon, er det grunn til å vurdere hele kostnadsbildet — ikke bare hvilken brikke som leverer flest FLOPS på papiret.