Baidu выкатила очень серьезного конкурента в области распознавания документов. Их открытая модель Unlimited-OCR способна парсить сотни страниц за один проход. Разработчики прямо заявляют цель — превзойти DeepSeek-OCR, и метрики это подтверждают. На профильном бенчмарке OmniDocBench новинка набрала 93%, обогнав текущего лидера на 6%.
Главная фишка архитектуры заключается в механизме R-SWA (Reference Sliding Window Attention). Обычно при обработке длинных PDF контекстное окно раздувается, и генерация начинает безбожно тормозить. Здесь размер KV-кэша жестко фиксируется и остается постоянным во время декодирования. В результате нейросети можно скармливать огромные архивы вообще без потери скорости!
Модель уже выложена в открытый доступ вместе с весами. Под капотом реализована нативная поддержка transformers и OpenAI-совместимого API через SGLang. Разработчики даже добавили готовые скрипты для автоматической нарезки PDF на кадры. Это предельно утилитарный инструмент для тех, кто сейчас собирает пайплайны RAG или пытается оцифровать корпоративные базы знаний.
Поделиться:
ИИ в зале суда: почему нейросети приносят штрафы на тысячи долларов, а юристы продолжают их использовать
Гибридный пайплайн в 3D-продакшене: интеграция Unreal Engine и AI-инструментов
Визуализация алгоритмов: ретро-анимация от BUCK для диджейских функций Spotify
Дизайн-студия Studio133 ищет старшего графического дизайнера для event-проектов
Выпущен набор React-компонентов Performative UI, систематизирующий шаблонные паттерны дизайна ИИ-стартапов
Empero выпустили Qwythos-9B: uncensored reasoning-модель с контекстом на миллион токенов и обучением на трейсах Claude