En tråd på Lobsters AI koker akkurat nå rundt Baidus ferske open source-slipp: Unlimited-OCR. Og selv om Baidu ikke akkurat er et ukjent navn, er dette noe annerledes enn det de pleier å levere.

Kjernen i saken er et konkret teknisk problem som alle som har jobbet med dokumentparsing kjenner altfor godt: jo lengre dokumentet er, jo mer raller det for eksisterende OCR-modeller. KV-cachen vokser, hastigheten faller, og etter 50+ sider begynner nøyaktigheten å smuldre. Tradisjonelle løsninger håndterer dette ved å hakke opp dokumentet side for side — men da mister du kontekst mellom sidene, og det hele blir et ingeniørplaster snarere enn en skikkelig løsning.

Unlimited-OCR gjør noe fundamentalt annerledes. Den introduserer Reference Sliding Window Attention (R-SWA), en oppmerksomhetsmekanisme som holder KV-cachen konstant gjennom hele dekodingsprosessen — uansett hvor lang outputen blir. Det betyr at modellen kan behandle 40, 100, eller enda flere sider i én enkelt forward pass under 32K token-grensen, uten at hastigheten degraderer underveis.

Side 1 og side 150 får identisk nøyaktighet — det er ikke noe du hører ofte fra OCR-verktøy.

Tallene som sirkulerer er ganske imponerende: 93,92% på OmniDocBench v1.6, rundt 7 800 tokens per sekund ved 6 000 output-tokens, og en 100-siders PDF ferdig på 8–12 sekunder. Til sammenligning: tradisjonelle pipelines bruker 45–90 sekunder og krever etterprosessering på toppen.

Baidu slipper OCR som leser 100 sider på 10 sekunder - Bilde 1

Modellen er bygget på en Mixture-of-Experts-arkitektur med 3 milliarder totale parametere, men kun 500 millioner aktiverte under inferens. Det gjør den relativt lett å kjøre lokalt — noe community-folket allerede har begynt å teste. Én viktig praktisk detalj som går igjen i kommentarene: GGUF-kvantiseringer krever foreløpig en spesifikk llama.cpp-build (PR #17400) til DeepSeek-OCR-støtte er inne i main branch.

Hvorfor er dette interessant utover benchmarks? Fordi dette er open source, og fordi R-SWA-mekanismen presenteres som generell — Baidu antyder at den kan brukes til ASR og oversettelse også. Hvis det holder vann, er det et arkitekturgrep som kan vandre videre inn i andre prosjekter raskt.

Dette er selvfølgelig early signals fra community-hold, og vi har ikke sett uavhengige replikasjoner i særlig skala ennå. Men engasjementet på Lobsters tyder på at folk faktisk tester, ikke bare leser.