Добавить в избранное

Baidu выкатила очень серьезного конкурента в области распознавания документов. Их открытая модель Unlimited-OCR способна парсить сотни страниц за один проход. Разработчики прямо заявляют цель — превзойти DeepSeek-OCR, и метрики это подтверждают. На профильном бенчмарке OmniDocBench новинка набрала 93%, обогнав текущего лидера на 6%.

Главная фишка архитектуры заключается в механизме R-SWA (Reference Sliding Window Attention). Обычно при обработке длинных PDF контекстное окно раздувается, и генерация начинает безбожно тормозить. Здесь размер KV-кэша жестко фиксируется и остается постоянным во время декодирования. В результате нейросети можно скармливать огромные архивы вообще без потери скорости!

Модель уже выложена в открытый доступ вместе с весами. Под капотом реализована нативная поддержка transformers и OpenAI-совместимого API через SGLang. Разработчики даже добавили готовые скрипты для автоматической нарезки PDF на кадры. Это предельно утилитарный инструмент для тех, кто сейчас собирает пайплайны RAG или пытается оцифровать корпоративные базы знаний.

Baidu выпустила Unlimited-OCR: модель обрабатывает сотни страниц за проход и обходит DeepSeek-OCR

Ещё публикации

Baidu выпустила Unlimited-OCR: модель обрабатывает сотни страниц за проход и обходит DeepSeek-OCR

Ещё публикации