En diskusjon som sprer seg på Product Hunt akkurat nå handler om noe de fleste norske tech-folk knapt har fått med seg: xAI har rolig sklidd inn en komplett voice API-pakke og den ser ut til å dunke både OpenAI og Google på det som faktisk betyr noe — latency og pris.
La oss ta det fra starten. Grok Voice Agent API ble sluppet i desember 2025, men det er nå i april 2026 at det begynner å boble i community-kanalene. Årsaken er sannsynligvis at TTS- og STT-APIene ble lansert så sent som 16. mars, og folk begynner nå å bygge med hele stacken samlet.
Det som gjør dette interessant er arkitekturen. I stedet for den klassiske STT → LLM → TTS-pipeline, prosesserer Grok Voice Agent API audio direkte. Det høres ut som markedsføring, men benchmarken på Big Bench Audio gir 92,3% — over både Gemini 2.5 Flash Native Audio og GPT Realtime i reasoning-kategorien. Det er ikke hverdagskost.
Prismodellen er også verdt å merke seg. $0,05 per minutt flatt for Voice Agent API-et. OpenAI Realtime fakturerer per token, noe som fort løper opp når du har lange samtaler. For de som bygger telefon-bots eller kundestøtte-agenter — som for øvrig er akkurat det xAI selv bruker dette til via Starlink og Tesla — er regnestykket ganske enkelt.
TTS-APIet støtter inline speech tags, altså at du kan programmere inn pauser, hvisking, sukk og latter direkte i teksten. Det er noe ElevenLabs har hatt i en stund, men nå sitter det altså i samme API som selve agentlaget. STT-et har speaker diarization og word-level timestamps, og streamer via WebSocket.
Hvorfor er dette verdt å følge nå? Fordi voice agents er der LLM-integrasjon faktisk treffer sluttbrukere — ikke i chatboter, men i telefoner, biler og kundeservice. Hvis Grok Voice virkelig holder latency-tallene i produksjon, og prisen forblir der den er, vil mange utviklere som bygger på OpenAI Realtime begynne å se seg om.
Viktig forbehold: Dette er early signals basert på community-diskusjoner og xAIs egne benchmarks. Uavhengige tester i stor skala mangler foreløpig, og egne benchmarks bør alltid leses med en klype salt. Men buzzen er reell, og tallene er ikke noe xAI kan gjemme seg bak lenge — community-en vil teste dette grundig de neste ukene.
