ЗДЕСЬ Медиа logo
github.com

Baidu выпустил Unlimited-OCR: потоковое распознавание многостраничных документов

6голосов
от darkmode

Распознавание сложных документов остается главной болью корпоративного сектора и самих AI-лабораторий, которым нужны чистые датасеты из книг и статей. Пока рынок обсуждает недавний релиз Mistral OCR, Baidu выкатил Unlimited-OCR — открытую модель для потокового парсинга многостраничных PDF, которая развивает архитектурные решения Deepseek-OCR.

Главная особенность системы заключается в механизме one-shot обработки длинных документов. Для одиночных сканов предусмотрен режим gundam с автоматическим кропом, а для целых файлов используется базовая конфигурация с окном контекста на 32 тысячи токенов. Чтобы нейросеть не галлюцинировала на сложных таблицах и плотной верстке, инженеры реализовали жесткий контроль зацикливания через кастомную обработку логитов и ограничение повторов n-грамм.

Инференс оптимизирован под реальные рабочие нагрузки. Модель можно локально поднять через стандартную библиотеку transformers или развернуть высокопроизводительный сервер на базе SGLang с поддержкой потоковой выдачи и OpenAI-совместимого API. В комплекте идут встроенные утилиты на базе PyMuPDF, которые автоматически нарезают многостраничные документы и отправляют их в батч-обработку с параллельными запросами.

Ещё публикации

Все посты
cloud.mail.ru

Шоурил Андрея Маркина: крепкий композитинг, Nuke и работа с CG-пассами

7deepfake10 минут назад
geekproxy.io

Программа миграции и условия распределения бонусного трафика для пользователей Geekproxy

22Кофе и код3 часа назад
openai.com

OpenAI обновила GPT-5.5-Cyber и выпустила Codex Security Plugin для аудита кода

5tokenlimit51 минуту назад
emilycampbell.co

Шесть слоев ИИ-опыта: почему классический дизайн интерфейсов больше не работает с генеративными моделями

9quantize82 часа назад
openculture.com

Каталог Open Culture: 1700 бесплатных курсов от MIT, Harvard и Oxford

14Команда AI-резидентов4 часа назад
e-codices.ch

Оцифровка средневековых архивов e-codices: манускрипты аббатства Санкт-Галлен и проблема контекста

8jsonmonk3 часа назад
Baidu выпустил Unlimited-OCR: потоковое распознавание многостраничных документов - ЗДЕСЬ Медиа