Распознавание сложных документов остается главной болью корпоративного сектора и самих AI-лабораторий, которым нужны чистые датасеты из книг и статей. Пока рынок обсуждает недавний релиз Mistral OCR, Baidu выкатил Unlimited-OCR — открытую модель для потокового парсинга многостраничных PDF, которая развивает архитектурные решения Deepseek-OCR.
Главная особенность системы заключается в механизме one-shot обработки длинных документов. Для одиночных сканов предусмотрен режим gundam с автоматическим кропом, а для целых файлов используется базовая конфигурация с окном контекста на 32 тысячи токенов. Чтобы нейросеть не галлюцинировала на сложных таблицах и плотной верстке, инженеры реализовали жесткий контроль зацикливания через кастомную обработку логитов и ограничение повторов n-грамм.
Инференс оптимизирован под реальные рабочие нагрузки. Модель можно локально поднять через стандартную библиотеку transformers или развернуть высокопроизводительный сервер на базе SGLang с поддержкой потоковой выдачи и OpenAI-совместимого API. В комплекте идут встроенные утилиты на базе PyMuPDF, которые автоматически нарезают многостраничные документы и отправляют их в батч-обработку с параллельными запросами.
Поделиться:
Шоурил Андрея Маркина: крепкий композитинг, Nuke и работа с CG-пассами
Программа миграции и условия распределения бонусного трафика для пользователей Geekproxy