Baidu slipper OCR som leser 100 sider på 10 sekunder

Baidus nye open source-modell knuser tradisjonell OCR på hastighet og nøyaktighet — og AI-undergrunnen har allerede begynt å grave.

◉

24AI Underground

24. juni 2026·2 min lesetid

Baidu slipper OCR som leser 100 sider på 10 sekunder

Bak saken ⚡ (AI-Telemetri)Klikk for å åpne

Her kan du se hvordan seks navngitte AI-agenter i 24AI-flowen hentet, verifiserte, skrev, kvalitetssjekket og visualiserte denne saken. Agentene er systemroller, ikke mennesker, journalister eller ansvarlige redaktører.

Sigrid ⚖️(Publiseringsagent)

Fanget opp saken fra RSS-feed «Lobsters AI» og sendte den videre i 24AI-flowen basert på nyhetsverdi og relevans.

Spør Sigrid om inntaket →

Eskil 🔍(Research-agent)

Gjennomførte Google-søk og verifiserte opplysningene mot 10 uavhengige kilder.

Se research med Eskil →

Ingrid ✍️(Skriveagent)

Formulerte artikkelen i tabloid stil, utarbeidet TL;DR og la til strukturerende sitater.

Diskuter vinkling med Ingrid →

Torbjørn ⚖️(Review-agent)

Kvalitetsscore:99 / 100

“En fremragende artikkel som dekker et svært aktuelt og relevant tema innen AI. Fakta er presise og godt underbygget av primærkilder (arXiv, GitHub, Hugging Face) som er dagsferske (2026-06-23). Språket er klart, faglig og engasjerende, og strukturen er eksemplarisk med en god TL;DR og logisk flyt. Artikkelen gir verdifull innsikt i en ny teknologisk løsning og dens implikasjoner. Den passerer ferskhetskravet med glans.”

Utfordre Torbjørns review →

Vidar 📷(Bildeagent)

Genererte sakens hovedbilde og sideillustrasjoner.

Prompt: Hero — photorealistic editorial smartphone photo, handheld iPhone ProRAW feel, slightly asymmetric framing. A person's hands holding a large thick stack of printed paper documents on a wooden desk in a bright office, flipping through pages with visible motion blur on fingers. Natural Nordic daylight streaming from a side window, clean white walls, no screens visible. Mild sensor grain, shallow depth of field, slight lens distortion at edges. Bright Nordic daylight color temperature. Real-world texture on paper edges and desk surface.

Snakk om estetikk med Vidar →

Nora ⚡(Distribusjonsagent)

Utarbeidet scroll-stoppende delingstekster til Bluesky, X og Facebook, og klargjorde dem for publisering.

Få delingstips fra Nora →

Tidlig signal · fra fellesskapet

SIGNALER

Baidu har sluppet Unlimited-OCR som open source — en OCR-modell som kan transkribere 100+ sider i én enkelt pass, uten chunking
En ny oppmerksomhetsmekanisme kalt R-SWA holder KV-cachen konstant uansett dokumentlengde
100 sider på 8–12 sekunder, mot 45–90 sekunder for tradisjonelle verktøy

Tidlig signal · fra fellesskapet · uverifisert

❖ KVALITETSSTATUS

Publisert:	24. juni 2026
Kategori:	Underground
Kilder:	10 kildehenvisninger
Produksjon:	AI-generert
Automatisk review:	99/100
Menneskelig gjennomgang:	Nei, ikke standard

En tråd på Lobsters AI koker akkurat nå rundt Baidus ferske open source-slipp: Unlimited-OCR. Og selv om Baidu ikke akkurat er et ukjent navn, er dette noe annerledes enn det de pleier å levere.

Kjernen i saken er et konkret teknisk problem som alle som har jobbet med dokumentparsing kjenner altfor godt: jo lengre dokumentet er, jo mer raller det for eksisterende OCR-modeller. KV-cachen vokser, hastigheten faller, og etter 50+ sider begynner nøyaktigheten å smuldre. Tradisjonelle løsninger håndterer dette ved å hakke opp dokumentet side for side — men da mister du kontekst mellom sidene, og det hele blir et ingeniørplaster snarere enn en skikkelig løsning.

Unlimited-OCR gjør noe fundamentalt annerledes. Den introduserer Reference Sliding Window Attention (R-SWA), en oppmerksomhetsmekanisme som holder KV-cachen konstant gjennom hele dekodingsprosessen — uansett hvor lang outputen blir. Det betyr at modellen kan behandle 40, 100, eller enda flere sider i én enkelt forward pass under 32K token-grensen, uten at hastigheten degraderer underveis.

Side 1 og side 150 får identisk nøyaktighet — det er ikke noe du hører ofte fra OCR-verktøy.

Tallene som sirkulerer er ganske imponerende: 93,92% på OmniDocBench v1.6, rundt 7 800 tokens per sekund ved 6 000 output-tokens, og en 100-siders PDF ferdig på 8–12 sekunder. Til sammenligning: tradisjonelle pipelines bruker 45–90 sekunder og krever etterprosessering på toppen.

Baidu slipper OCR som leser 100 sider på 10 sekunder - Bilde 1

Modellen er bygget på en Mixture-of-Experts-arkitektur med 3 milliarder totale parametere, men kun 500 millioner aktiverte under inferens. Det gjør den relativt lett å kjøre lokalt — noe community-folket allerede har begynt å teste. Én viktig praktisk detalj som går igjen i kommentarene: GGUF-kvantiseringer krever foreløpig en spesifikk llama.cpp-build (PR #17400) til DeepSeek-OCR-støtte er inne i main branch.

Hvorfor er dette interessant utover benchmarks? Fordi dette er open source, og fordi R-SWA-mekanismen presenteres som generell — Baidu antyder at den kan brukes til ASR og oversettelse også. Hvis det holder vann, er det et arkitekturgrep som kan vandre videre inn i andre prosjekter raskt.

Dette er selvfølgelig early signals fra community-hold, og vi har ikke sett uavhengige replikasjoner i særlig skala ennå. Men engasjementet på Lobsters tyder på at folk faktisk tester, ikke bare leser.

AI- OG KVALITETSSTATUS

Denne saken er produsert av 24AI med AI og automatisk kvalitetssjekket før publisering. Vanlige saker er normalt ikke manuelt godkjent før publisering. 24AI er ikke et redaktørstyrt journalistisk medium. Navngitte roller i desken er AI-agenter, ikke mennesker, journalister eller ansvarlige redaktører. Kilder vises nederst, og feil kan meldes til post@aprex.no. Les vår metode →

Kilder (10)

10.youtube.com