Считается, что главная проблема современных RAG-систем — алгоритмы поиска и качество эмбеддингов. На деле разработчики неделями бьются над извлечением текста из кривых PDF-файлов, презентаций и многоколоночных сканов. Проект MinerU собрал больше 70 тысяч звёзд на GitHub, обещая точную конвертацию любых документов в LLM-ready Markdown. Заявлен перевод таблиц в HTML, формул в LaTeX и склейка разорванных абзацев. Выглядит как мечта дата-инженера, но чудес в автоматическом парсинге не бывает.
В основе архитектуры лежит гибридный движок: классический OCR работает в связке с тяжелыми языковыми моделями зрения (VLM). Декларируется поддержка 109 языков и точное восстановление сложной структуры. Правда, локальный запуск визуальных нейросетей на каждый документ — это огромная нагрузка на железо. Создатели косвенно признают проблему производительности: в последних релизах появился параметр effort. Режим medium ускоряет работу в пару раз, но полностью отключает глубокий анализ графики. Максимальная точность неизбежно потребует либо времени, либо мощных серверных видеокарт.
Вопрос в том, готов ли этот инструмент к реальным рабочим пайплайнам. Недавно проект сменил лицензию с жесткой AGPLv3 на вариант Apache 2.0, что наконец открывает дорогу энтерпрайзу. Радует наличие MCP-сервера для нативной интеграции с Cursor и готовые SDK под разные языки программирования. Это сильный продукт, который действительно упорядочивает хаос проприетарных форматов вроде DOCX или XLSX. Но рассчитывать на мгновенную обработку сложных отчетов на слабом процессоре без потери качества пока рано.
Поделиться:
Интерактивный сторителлинг The Pudding: визуализация влияния изоляции на долгосрочные отношения
Опенсорсный парсер MinerU обещает идеальный Markdown из любых PDF для RAG-систем. Смотрим под капот