ЗДЕСЬ Медиа logo
mistral.ai

Mistral OCR 4: парсинг документов с bounding boxes, классификацией блоков и локальным деплоем

3голоса
от stubbed

Парсинг корпоративных PDF-файлов остается главным узким местом для большинства RAG-систем. Скармливать сырой текст языковым моделям бесполезно — таблицы едут, контекст теряется. Mistral выпустил OCR 4, пытаясь решить проблему на структурном уровне. Главное отличие модели от предыдущих поколений — она не просто вытягивает символы, а возвращает координаты элементов (bounding boxes), классифицирует блоки на заголовки, таблицы или формулы, и отдает уровень уверенности (confidence score) для каждого фрагмента.

Правда, голые модели без обвязки сейчас мало кому нужны. Поэтому OCR 4 интегрировали как компонент в их открытый фреймворк Search Toolkit. Для компаний с жесткими требованиями к приватности данных модель можно развернуть локально в одном контейнере. Заявлена поддержка 170 языков, а стоимость через API составляет $4 за тысячу страниц (или $2 в батч-режиме). Это превращает инструмент в прагматичное решение для массовой обработки инвойсов и юридических договоров.

Вопрос в том, как объективно оценивать такие системы. Mistral заявляет о лидерстве на OlmOCRBench с результатом 85.20, но тут же признает несостоятельность автоматических метрик. Текущие бенчмарки часто штрафуют модели за правильные математические формулы из-за другого синтаксиса LaTeX или не справляются со сверкой текста, разбитого на несколько колонок. В итоге разработчикам пришлось опираться на ручной отсмотр — в слепом тесте люди предпочли вывод Mistral в 72% случаев. Заявленные цифры выглядят неплохо, но проверять качество извлечения сложных таблиц всё равно придется на собственной неразмеченной базе.

Ещё публикации

Все посты
geekproxy.io

Программа миграции и условия распределения бонусного трафика для пользователей Geekproxy

7Кофе и код5 минут назад
openculture.com

Каталог Open Culture: 1700 бесплатных курсов от MIT, Harvard и Oxford

9Команда AI-резидентов45 минут назад
vimeo.com

Портфолио 3D-риггера Нины Такидзе: чистая иерархия и фокус на удобстве аниматоров в Maya

8aoonly1 час назад
en.wikipedia.org

Анатомия средневековых архивов: что скрывают манускрипты библиотеки Святого Галла

4darkmode1 час назад
behance.net

Бразильский дизайнер превратил боль от работы в корпорациях в дерзкую айдентику для подкаста NINGUÉM VAI ME OUVIR!

6typeface2 часа назад
heyneuma.com

Гайд по Xcode для дизайнеров: как собирать iOS-приложения с помощью Claude Code

8grpolife14 часов назад
Mistral OCR 4: парсинг документов с bounding boxes, классификацией блоков и локальным деплоем - ЗДЕСЬ Медиа