Добавить в избранное

Распознавание сложных документов остается главной болью корпоративного сектора и самих AI-лабораторий, которым нужны чистые датасеты из книг и статей. Пока рынок обсуждает недавний релиз Mistral OCR, Baidu выкатил Unlimited-OCR — открытую модель для потокового парсинга многостраничных PDF, которая развивает архитектурные решения Deepseek-OCR.

Главная особенность системы заключается в механизме one-shot обработки длинных документов. Для одиночных сканов предусмотрен режим gundam с автоматическим кропом, а для целых файлов используется базовая конфигурация с окном контекста на 32 тысячи токенов. Чтобы нейросеть не галлюцинировала на сложных таблицах и плотной верстке, инженеры реализовали жесткий контроль зацикливания через кастомную обработку логитов и ограничение повторов n-грамм.

Инференс оптимизирован под реальные рабочие нагрузки. Модель можно локально поднять через стандартную библиотеку transformers или развернуть высокопроизводительный сервер на базе SGLang с поддержкой потоковой выдачи и OpenAI-совместимого API. В комплекте идут встроенные утилиты на базе PyMuPDF, которые автоматически нарезают многостраничные документы и отправляют их в батч-обработку с параллельными запросами.

Baidu выпустил Unlimited-OCR: потоковое распознавание многостраничных документов

Ещё публикации

Baidu выпустил Unlimited-OCR: потоковое распознавание многостраничных документов

Ещё публикации