AI-modeller begynner alle på samme sted: med en treningskjøring. Kvaliteten og hastigheten på treningsinfrastrukturen bestemmer hvor raskt team kan iterere, hvilken modellskala de kan håndtere og om jobbene fullfører pålitelig. Med MLPerf Training 6.0-resultatene publisert, er det nå klart at NVIDIAs Blackwell-generasjon setter en ny bransjestandard — ifølge NVIDIA selv og tilgjengelige benchmarkdata.

Blackwell knuser konkurransen i MLPerf

MLPerf Training er en av bransjens mest anerkjente uavhengige benchmarkserier for AI-treningsinfrastruktur. I den seneste runden, versjon 6.0, tok NVIDIA førsteplassen i samtlige kategorier med sine Blackwell-baserte systemer, ifølge NVIDIAs egen blogg.

De mest imponerende tallene gjelder trening av store språkmodeller. GB200 NVL72-systemet — som kobler 72 Blackwell-GPUer sammen i et rack-format — leverte opptil 3,2 ganger raskere trening på Llama 3.1 405B sammenlignet med optimerte Hopper-løsninger (H100) med FP8-presisjon. Den forbedrede ytelsen skyldes ifølge NVIDIA i stor grad introduksjonen av NVFP4-presisjon og programvareoptimaliseringer.

3,2x
Raskere trening vs. H100 (Llama 3.1 405B)
1,6x
GB300 raskere enn GB200
NVIDIAs Blackwell feier banen: 3x raskere AI-trening enn H100 - Bilde 1

GB300 NVL72: Blackwell Ultra tar det ett steg videre

Om GB200 NVL72 allerede er kraftig, er den nye GB300 NVL72 — kalt «Blackwell Ultra» — enda et hakk raskere. Ifølge tilgjengelig benchmarkdata leverer GB300-systemet opptil 1,6 ganger høyere treningsytelse enn GB200 ved samme skala. Det er et bemerkelsesverdig generasjonshopp innad i samme arkitekturfamilie.

B200-GPUen som ligger i bunnen av Blackwell-serien er bygget på en dual-die CoWoS-design produsert på TSMCs 4NP-prosess, med 208 milliarder transistorer og 192 GB HBM3E-minne med 8 TB/s båndbredde. Innføringen av native FP4 tensor-operasjoner er en av de viktigste tekniske innovasjonene sammenlignet med forrige generasjon.

Med GB300 NVL72 er det nå mulig å trene modeller i en størrelsesorden som tidligere krevde betydelig mer tid og ressurser.

Reelle kunder bekrefter ytelsen

Benchmarktall fra NVIDIA er naturlig nok å betrakte med et kritisk blikk — selskapet har åpenbare kommersielle interesser. Det er derfor verdt å merke seg at uavhengige brukere rapporterer lignende resultater. Selskapet Cohere, kjent for enterprise-rettet AI, oppgir ifølge tilgjengelige sources å ha oppnådd tre ganger raskere trening for sin North-plattform på GB200 NVL72. Bildegenererings-tjenesten Midjourney skal ifølge samme kildemateriale skalere opp en stor flåte av Blackwell Ultra-GPUer for trening av kommende bilde- og videomodeller.

Disse påstandene er selvsagt vanskelige å verifisere uavhengig, men de gir en indikasjon på at ytelsesgevinstene ikke bare er papirtall.

AMD MI300X: Fortsatt relevant, men under press

Det er viktig å ha et nyansert bilde av konkurransen. AMD Instinct MI300X er fremdeles en seriøs aktør, særlig for minnekrevende oppgaver. Med 192 GB HBM3-minne og 5,3 TB/s båndbredde er MI300X svært godt egnet til inferens av svært store modeller på én enkelt GPU, noe som reduserer behovet for modellsplitting og nettverkskostnader.

I MLPerf Inference v4.1 viste MI300X sterk ytelse på Llama 2 70B-inferens, og AMD har hevdet fordeler på 20–60 prosent over H100 i visse inferens-scenarioer. For rå AI-trening i stor skala er bildet imidlertid et annet: Blackwell B200 leverer omtrent dobbelt råkraft sammenlignet med H200 på tvers av ulike presisjoner.

En viktig faktor er programvarestakken. AMDs ROCm-plattform har gjort betydelige fremskritt, men anses generelt som mindre moden enn NVIDIAs CUDA-økosystem. Dette kan ifølge uavhengige analyser resultere i at MI300X kun realiserer 37–66 prosent av sin teoretiske kapasitet i virkelige LLM-arbeidsbelastninger — en vesentlig begrensning som AMD jobber aktivt med å redusere.

AMD MI300X er sterk på minnekrevende inferens, men for ren storskala AI-trening setter Blackwell en ny bransjestandard som er vanskelig å konkurrere med per i dag.

Hva betyr dette for AI-treningslandskapet?

Når den grunnleggende treningsinfrastrukturen forbedres med en faktor på 3 fra generasjon til generasjon, endrer det hva som er mulig å bygge. Modeller som tidligere krevde uker å trene, kan nå ferdigstilles på dager. Det senker terskelen for iterasjon og eksperimentering — og akselererer i praksis hele utviklingsløpet for AI.

MLPerf-benchmarken er ikke perfekt, og det er alltid et gap mellom kontrollerte testbetingelser og produksjonsmiljøer. Men som et komparativt mål for treningsinfrastruktur er den anerkjent i bransjen, og Blackwells dominans her er vanskelig å ignorere.

Kildene til denne artikkelen inkluderer NVIDIAs offisielle blogg om MLPerf Training 6.0 samt uavhengig analysearbeid som sammenligner AMD Instinct MI300X og NVIDIA Blackwell i virkelige treningsscenarioer.