AI-modellbarometer.
En løpende og objektiv sammenligning av de kraftigste kunstig intelligens-språkmodellene på markedet, basert på standardiserte akademiske tester og sanntids API-priser.
Hvilken AI-modell er best akkurat nå?
Basert på våre aggregerte benchmark-analyser og tester fra Epoch AI, er for øyeblikket Gemini 3.1 Pro (Google) den sterkeste modellen på markedet med en solid gjennomsnittsscore på tvers av GPQA, SWE-Bench og SimpleQA. Modellen tilbys til en pris på ca. $2.00 per 1 million input-tokens.
| Modell | Utvikler | GPQA (Eksperttest) | SWE-Bench (Koding) | MATH Level 5 (Matte) | SimpleQA (Faktasjekk) | Pris / 1M Input Tokens |
|---|---|---|---|---|---|---|
👑Gemini 3.1 Pro | 94.1% | 75.6% | — | 77.3% | $2.00 | |
GPT-5.5 | OpenAI | 94.0% | 80.6% | — | 63.1% | $5.00 |
Gemini 3 Flash | 83.2% | 75.4% | — | 67.4% | $0.50 | |
Claude Opus 4.7 | Anthropic | 90.2% | 83.5% | — | 50.6% | $5.00 |
Qwen 3.6 Max | Alibaba | 89.1% | — | — | 56.9% | — |
Mistral Medium 3 | Mistral | 59.5% | — | 81.6% | — | $0.40 |
Llama 4 Maverick | Meta | 67.0% | — | 73.0% | — | $0.15 |
Kimi K2.6 | Moonshot | 90.8% | 76.7% | — | 38.7% | $0.73 |
Grok 4 | xAI | 87.0% | — | — | 47.9% | — |
GLM-5.1 | Zhipu AI | 85.5% | 74.2% | — | 37.3% | $0.98 |
Claude Sonnet 4.6 | Anthropic | 87.4% | 75.2% | — | 29.0% | $3.00 |
GPT-5.4 Mini | OpenAI | 83.6% | — | — | 28.6% | $0.75 |
DeepSeek-V3.2 | DeepSeek | 83.4% | — | — | 27.5% | $0.25 |
Codex 5.2 | OpenAI | — | — | — | — | $1.75 |
Ofte stilte spørsmål om barometeret.
Hva måler testene som vises i tabellen?
- GPQA: En ekstremt vanskelig test utviklet av PhD-forskere som dekker biologi, fysikk og kjemi. Måler avanserte akademiske resonneringsevner.
- SWE-Bench: Måler modellens evne til å løse reelle programvare-bugs i store GitHub-repositories. Svært viktig indikator på koding.
- MATH Level 5: Måler matematisk problemløsning på høyt akademisk nivå.
- SimpleQA: Utviklet av OpenAI for å måle tendens til hallusinasjoner. Høyere score betyr mer pålitelige, faktasjekkede svar.
Hvor ofte oppdateres priser og benchmark-tall?
Tallene i barometeret oppdateres automatisk 3 ganger i døgnet via synkroniseringsskript koblet mot databaser fra Epoch AI og sanntids API-priser fra OpenRouter.