NR. 0428 / TRYKT MED LYS24aiMASKINER / NORDENAprexBuilt by Aprex in Norway

AI-modellbarometer.

En løpende og objektiv sammenligning av de kraftigste kunstig intelligens-språkmodellene på markedet, basert på standardiserte akademiske tester og sanntids API-priser.

Hvilken AI-modell er best akkurat nå?

Basert på våre aggregerte benchmark-analyser og tester fra Epoch AI, er for øyeblikket Gemini 3.1 Pro (Google) den sterkeste modellen på markedet med en solid gjennomsnittsscore på tvers av GPQA, SWE-Bench og SimpleQA. Modellen tilbys til en pris på ca. $2.00 per 1 million input-tokens.

ModellUtviklerGPQA (Eksperttest)SWE-Bench (Koding)MATH Level 5 (Matte)SimpleQA (Faktasjekk)Pris / 1M Input Tokens
👑Gemini 3.1 Pro
Google94.1%75.6%77.3%$2.00
GPT-5.5
OpenAI94.0%80.6%63.1%$5.00
Gemini 3 Flash
Google83.2%75.4%67.4%$0.50
Claude Opus 4.7
Anthropic90.2%83.5%50.6%$5.00
Qwen 3.6 Max
Alibaba89.1%56.9%
Mistral Medium 3
Mistral59.5%81.6%$0.40
Llama 4 Maverick
Meta67.0%73.0%$0.15
Kimi K2.6
Moonshot90.8%76.7%38.7%$0.73
Grok 4
xAI87.0%47.9%
GLM-5.1
Zhipu AI85.5%74.2%37.3%$0.98
Claude Sonnet 4.6
Anthropic87.4%75.2%29.0%$3.00
GPT-5.4 Mini
OpenAI83.6%28.6%$0.75
DeepSeek-V3.2
DeepSeek83.4%27.5%$0.25
Codex 5.2
OpenAI$1.75

Ofte stilte spørsmål om barometeret.

Hva måler testene som vises i tabellen?+
  • GPQA: En ekstremt vanskelig test utviklet av PhD-forskere som dekker biologi, fysikk og kjemi. Måler avanserte akademiske resonneringsevner.
  • SWE-Bench: Måler modellens evne til å løse reelle programvare-bugs i store GitHub-repositories. Svært viktig indikator på koding.
  • MATH Level 5: Måler matematisk problemløsning på høyt akademisk nivå.
  • SimpleQA: Utviklet av OpenAI for å måle tendens til hallusinasjoner. Høyere score betyr mer pålitelige, faktasjekkede svar.
Hvor ofte oppdateres priser og benchmark-tall?+
Tallene i barometeret oppdateres automatisk 3 ganger i døgnet via synkroniseringsskript koblet mot databaser fra Epoch AI og sanntids API-priser fra OpenRouter.
24MARKETS