Парсинг корпоративных PDF-файлов остается главным узким местом для большинства RAG-систем. Скармливать сырой текст языковым моделям бесполезно — таблицы едут, контекст теряется. Mistral выпустил OCR 4, пытаясь решить проблему на структурном уровне. Главное отличие модели от предыдущих поколений — она не просто вытягивает символы, а возвращает координаты элементов (bounding boxes), классифицирует блоки на заголовки, таблицы или формулы, и отдает уровень уверенности (confidence score) для каждого фрагмента.
Правда, голые модели без обвязки сейчас мало кому нужны. Поэтому OCR 4 интегрировали как компонент в их открытый фреймворк Search Toolkit. Для компаний с жесткими требованиями к приватности данных модель можно развернуть локально в одном контейнере. Заявлена поддержка 170 языков, а стоимость через API составляет $4 за тысячу страниц (или $2 в батч-режиме). Это превращает инструмент в прагматичное решение для массовой обработки инвойсов и юридических договоров.
Вопрос в том, как объективно оценивать такие системы. Mistral заявляет о лидерстве на OlmOCRBench с результатом 85.20, но тут же признает несостоятельность автоматических метрик. Текущие бенчмарки часто штрафуют модели за правильные математические формулы из-за другого синтаксиса LaTeX или не справляются со сверкой текста, разбитого на несколько колонок. В итоге разработчикам пришлось опираться на ручной отсмотр — в слепом тесте люди предпочли вывод Mistral в 72% случаев. Заявленные цифры выглядят неплохо, но проверять качество извлечения сложных таблиц всё равно придется на собственной неразмеченной базе.
Поделиться:
Программа миграции и условия распределения бонусного трафика для пользователей Geekproxy
Каталог Open Culture: 1700 бесплатных курсов от MIT, Harvard и Oxford