En tråd på r/LocalLLaMA som eksploderer akkurat nå har satt i gang en real buzz: Alibabas Qwen-team har droppet en ny serie kompakte modeller uten særlig forvarsel, og reaksjonen fra community-et er ganske tydelig — folk er imponert.

Det handler ikke bare om at modellene er små. Det handler om hva de faktisk klarer.

Qwen3.5-9B er modellen som stjeler showet akkurat nå. Den passer inn på en enkelt RTX 3060 med 12GB VRAM ved 4-bit kvantisering — altså et rimelig, tre år gammelt kort. Likevel rapporterer benchmarks at den slår GPT-5 Nano og Gemini 2.5 Flash-Lite på vision-oppgaver med tosifrede marginer. På MathVision scorer den 78.9 mot Googles 62.2. Det er ikke en liten forskjell.

En 9B-modell som outperformer Googles og OpenAIs mini-modeller — og kjører lokalt på forbrukerhardware.

Noe av det mest interessante er MoE-modellen Qwen3.5-35B-A3B. Den har 35 milliarder parametere totalt, men aktiverer bare 3 milliarder under inferens — og overgår likevel den forrige generasjonens 235B-A22B-modell. Det forteller oss noe viktig: Alibaba presser hardt på arkitektur og datakvalitet fremfor å bare stable på flere parametere. Det er en tydelig trend vi kommer til å se mer av.

Alle modellene er nativt multimodale (tekst, bilde, video fra samme vekter), støtter 262K kontekstvindu — utvidbart til rundt 1M tokens — og dekker 201 språk og dialekter. De er allerede tilgjengelige via Ollama, LMStudio, llama.cpp og MLX.

For de minste modellene (0.8B og 2B) er situasjonen enda mer ekstrem: de er designet for å kjøre direkte på mobiltelefoner, og krever fra 3GB til 5GB total minne.

Et par forbehold er verdt å nevne. Dette er early signals fra community-kilder, og brukeropplevelsene varierer. Noen rapporterer hallusinasjoner på spesialiserte kodeoppgaver (spesielt Solidity), mens andre har stikk motsatte erfaringer. Slike variasjoner er vanlige ved lansering, og mer systematisk testing vil komme.

Hvorfor er dette viktig? Fordi terskelen for hva som kan kjøre lokalt — på din egen maskin, uten API-kostnader, uten datadeling — bare falt igjen. Og det skjer fort.

Hold øye med dette. Mainstream tech-media har ikke plukket det opp ennå.