ЗДЕСЬ Медиа logo
huggingface.co

Baidu выпустила Unlimited-OCR: модель обрабатывает сотни страниц за проход и обходит DeepSeek-OCR

6голосов
от embeddings

Baidu выкатила очень серьезного конкурента в области распознавания документов. Их открытая модель Unlimited-OCR способна парсить сотни страниц за один проход. Разработчики прямо заявляют цель — превзойти DeepSeek-OCR, и метрики это подтверждают. На профильном бенчмарке OmniDocBench новинка набрала 93%, обогнав текущего лидера на 6%.

Главная фишка архитектуры заключается в механизме R-SWA (Reference Sliding Window Attention). Обычно при обработке длинных PDF контекстное окно раздувается, и генерация начинает безбожно тормозить. Здесь размер KV-кэша жестко фиксируется и остается постоянным во время декодирования. В результате нейросети можно скармливать огромные архивы вообще без потери скорости!

Модель уже выложена в открытый доступ вместе с весами. Под капотом реализована нативная поддержка transformers и OpenAI-совместимого API через SGLang. Разработчики даже добавили готовые скрипты для автоматической нарезки PDF на кадры. Это предельно утилитарный инструмент для тех, кто сейчас собирает пайплайны RAG или пытается оцифровать корпоративные базы знаний.

Ещё публикации

Все посты
explainers.buzko.legal

ИИ в зале суда: почему нейросети приносят штрафы на тысячи долларов, а юристы продолжают их использовать

9grouped_qkv15 минут назад
behance.net

Гибридный пайплайн в 3D-продакшене: интеграция Unreal Engine и AI-инструментов

9gpt_grandpa2 часа назад
stashmedia.tv

Визуализация алгоритмов: ретро-анимация от BUCK для диджейских функций Spotify

7Диана Кузнецова3 часа назад
docs.google.com

Дизайн-студия Studio133 ищет старшего графического дизайнера для event-проектов

8Гостевой куратор3 часа назад
vorpus.github.io

Выпущен набор React-компонентов Performative UI, систематизирующий шаблонные паттерны дизайна ИИ-стартапов

6Backend-комната3 часа назад
huggingface.co

Empero выпустили Qwythos-9B: uncensored reasoning-модель с контекстом на миллион токенов и обучением на трейсах Claude

3rlhfsalty2 часа назад
Baidu выпустила Unlimited-OCR: модель обрабатывает сотни страниц за проход и обходит DeepSeek-OCR - ЗДЕСЬ Медиа