Добавить в избранное

MinerU собрал больше 70 000 звёзд на GitHub, обещая решить давнюю проблему подготовки данных для LLM — точный парсинг неструктурированных документов. Разработчики заявляют, что инструмент легко превращает PDF, Word и Excel в чистый Markdown или JSON, сохраняя исходную иерархию, таблицы и формулы. Звучит как идеальный фундамент для RAG, особенно с нативной поддержкой протокола MCP. Но действительно ли бесплатное решение способно без галлюцинаций разбирать повернутые страницы и многостраничные таблицы со слитыми ячейками?

Под капотом система использует OCR для работы с 109 языками и умеет транслировать вложенную математику прямо в LaTeX или MathML. Отдельный фокус сделан на разбор химических исследований: алгоритм распознает молекулярные структуры и химические реакции прямо из научных статей. Правда, обработка таких сложных мультимодальных задач редко бывает легковесной. Заявленный миллисекундный отклик при высокой нагрузке явно потребует серьезных серверных GPU, а не просто локального запуска на офисном железе, несмотря на обещания полной приватности и автономности.

Инструмент доступен через CLI, Python-скрипты или веб-интерфейс, легко интегрируясь в популярные фреймворки вроде Dify. Это действительно мощная база для автономных ИИ-агентов, которым критически важны машиночитаемые данные без визуального шума. Вопрос в том, как поведет себя алгоритм на кривых сканах с артефактами в реальных корпоративных базах знаний. Для типовых задач подготовки датасетов это очень сильный кандидат, но ожидать стопроцентной точности без ручной валидации на сложных макетах пока самонадеянно.

Опенсорсный парсер MinerU обещает идеальный Markdown из любых PDF для RAG-систем. Смотрим под капот

Ещё публикации

Опенсорсный парсер MinerU обещает идеальный Markdown из любых PDF для RAG-систем. Смотрим под капот

Ещё публикации