Fysisk AI – altså systemer som roboter og selvkjørende kjøretøy som må navigere og handle i den virkelige verden – har lenge krevd et lappeteppe av spesialiserte modeller som måtte kommunisere med hverandre. NVIDIA vil nå gjøre slutt på den fragmenterte tilnærmingen.
Én modell for alt
Cosmos 3 er bygget på det NVIDIA beskriver som en Mixture-of-Transformers-arkitektur (MoT), og representerer et markant skifte fra selskapets tidligere Cosmos-generasjoner. Der tidligere utgaver fordelte oppgavene mellom separate modeller for henholdsvis verdensgenerering, scenforståelse, kontrollert generering og policygenerering, håndterer Cosmos 3 alle disse modalitetene i ett og samme system – i én enkelt fremoverpass, ifølge NVIDIA-bloggen.
Modellen kan prosessere og generere tekst, bilder, video, omgivelseslyd og handlingsdata. Det siste punktet er særlig viktig for robotikk: Cosmos 3 kan produsere konkrete numeriske handlingsdata som leddvinkler og gripeposisjoner, som robotter kan lære direkte fra.
«Cosmos 3-familien gir utviklere et generasjonsskifte i evnen til å bygge roboter, autonome kjøretøy og visjons-AI som oppfatter, resonnerer, planlegger og handler i den fysiske verden.» — Jensen Huang, grunnlegger og konsernsjef, NVIDIA

To modellstørrelser – én planlagt til kanten
Cosmos 3 lanseres i to varianter med klart atskilte bruksområder:
Cosmos 3 Nano er en 8-milliarders-parameter-modell (8B resonnerer + 8B generator) skalert for effektiv inferens på arbeidsstasjonsklasse-maskinvare, nærmere bestemt NVIDIAs RTX PRO 6000-GPU. Dette gjør modellen tilgjengelig for utviklere som ikke har tilgang til dataseenter-infrastruktur.
Cosmos 3 Super er en 32-milliarders-parameter-modell beregnet på storskala syntetisk datagenerering og forskning, og kjøres på NVIDIAs Hopper- og Blackwell-GPU-er.
En tredje variant, foreløpig kalt Cosmos 3 Edge, er annonsert for sanntidsinferens direkte på kantenheter, men er ennå ikke lansert.
Fra måneder til dager – ifølge NVIDIA selv
Selskapets egne påstander er ambisiøse: trenings- og evalueringssykluser for fysisk AI skal ifølge NVIDIA kunne reduseres fra måneder til dager ved hjelp av Cosmos 3. Det er verdt å merke seg at dette er NVIDIAs egne tall, og uavhengig verifisering av disse besparelsene foreligger ikke per publiseringsdato.
Blant de oppgitte bruksområdene er syntetisk datagenerering for lagersikkerhetsscenarier, robotopplæring for oppgaver som bretting av tøy og plukk-og-plasser, samt generering av sjeldne kjørescenarier for autonome kjøretøy – de såkalte «long-tail»-situasjonene som er vanskelige å samle inn reelle data på.
Åpen kildekode og benchmarktopper
Modellen er gjort fullt tilgjengelig som åpen kildekode, med både modellvekter og treningsskripter på Hugging Face og GitHub. NVIDIA oppgir at Cosmos 3 rangerer øverst blant åpne modeller på en rekke bransjebenchmarks, inkludert Artificial Analysis, Physics-IQ, PAI-Bench og R-Bench for verdensgenerering, samt RoboLab og RoboArena for handlingspolicyer, ifølge NVIDIA-bloggen.
Konkurrentene: fragmenterte, men etablerte
Cosmos 3 konkurrerer ikke direkte med lavnivå-rammeverk som ROS 2 og MoveIt, men utfordrer den tradisjonelle arbeidsdelingen i fysisk AI-utvikling. ROS 2 er fortsatt industristandarden for robotmiddleware og håndterer kommunikasjon og sanntidskontroll, mens Cosmos 3 opererer på et høyere abstraksjonsnivå – og er ment å integreres inn i ROS-baserte systemer, ikke erstatte dem. NVIDIA tilbyr allerede Isaac ROS som et bindeledd mellom sine modeller og ROS-økosystemet.
Den egentlige utfordringen Cosmos 3 stiller er mot det fragmenterte mønsteret der separate modeller for simulering, resonnering og handlingsgenerering må koordineres manuelt – noe som hittil har vært normen i feltet.
Cosmos 3 er NVIDIAs tydeligste signal så langt om at selskapet ser fysisk AI – ikke bare språkmodeller – som neste store vekstområde. Om de tekniske løftene holder i praksis, vil forskningsmiljøer og industripartnere snart få anledning til å etterprøve.
