Alibaba slipper Qwen3.5 small — og 9B-modellen slår GPT-5 Nano

Alibaba har stille droppet en ny serie små Qwen3.5-modeller, og r/LocalLLaMA koker. En 9B-modell som kjører på en RTX 3060 og outperformer modeller tre til ni ganger større? Det er verdt å følge med.

◉

24AI Underground

3. mars 2026·Oppdatert 25. mars 2026·2 min lesetid

Alibaba slipper Qwen3.5 small — og 9B-modellen slår GPT-5 Nano

Tidlig signal · fra fellesskapet

SIGNALER

Alibaba har sluppet Qwen3.5-modeller i størrelsene 0.8B, 2B, 4B og 9B — alle åpne, Apache 2.0
Qwen3.5-9B kjører på en RTX 3060 12GB med 4-bit kvantisering og slår GPT-5 Nano og Gemini 2.5 Flash-Lite på vision-benchmarks
En 35B MoE-modell aktiverer bare 3B parametere og overgår tilsynelatende forrige generasjons 235B-modell

Tidlig signal · fra fellesskapet · uverifisert

En tråd på r/LocalLLaMA som eksploderer akkurat nå har satt i gang en real buzz: Alibabas Qwen-team har droppet en ny serie kompakte modeller uten særlig forvarsel, og reaksjonen fra community-et er ganske tydelig — folk er imponert.

Det handler ikke bare om at modellene er små. Det handler om hva de faktisk klarer.

Qwen3.5-9B er modellen som stjeler showet akkurat nå. Den passer inn på en enkelt RTX 3060 med 12GB VRAM ved 4-bit kvantisering — altså et rimelig, tre år gammelt kort. Likevel rapporterer benchmarks at den slår GPT-5 Nano og Gemini 2.5 Flash-Lite på vision-oppgaver med tosifrede marginer. På MathVision scorer den 78.9 mot Googles 62.2. Det er ikke en liten forskjell.

En 9B-modell som outperformer Googles og OpenAIs mini-modeller — og kjører lokalt på forbrukerhardware.

Noe av det mest interessante er MoE-modellen Qwen3.5-35B-A3B. Den har 35 milliarder parametere totalt, men aktiverer bare 3 milliarder under inferens — og overgår likevel den forrige generasjonens 235B-A22B-modell. Det forteller oss noe viktig: Alibaba presser hardt på arkitektur og datakvalitet fremfor å bare stable på flere parametere. Det er en tydelig trend vi kommer til å se mer av.

Alle modellene er nativt multimodale (tekst, bilde, video fra samme vekter), støtter 262K kontekstvindu — utvidbart til rundt 1M tokens — og dekker 201 språk og dialekter. De er allerede tilgjengelige via Ollama, LMStudio, llama.cpp og MLX.

For de minste modellene (0.8B og 2B) er situasjonen enda mer ekstrem: de er designet for å kjøre direkte på mobiltelefoner, og krever fra 3GB til 5GB total minne.

Et par forbehold er verdt å nevne. Dette er early signals fra community-kilder, og brukeropplevelsene varierer. Noen rapporterer hallusinasjoner på spesialiserte kodeoppgaver (spesielt Solidity), mens andre har stikk motsatte erfaringer. Slike variasjoner er vanlige ved lansering, og mer systematisk testing vil komme.

Hvorfor er dette viktig? Fordi terskelen for hva som kan kjøre lokalt — på din egen maskin, uten API-kostnader, uten datadeling — bare falt igjen. Og det skjer fort.

Hold øye med dette. Mainstream tech-media har ikke plukket det opp ennå.

Alibaba slipper Qwen3.5 small — og 9B-modellen slår GPT-5 Nano

Relaterte artikler

Gratis AI gjemt i Macen din — ingen vet om den

AMD slår tilbake: Lemonade gjør lokal LLM på AMD-brikker faktisk brukbart

Anthropics kildekode lekket: hemmelige agenter, kodename og sabotasje avslørt