Datalab выпустила модель Lift для извлечения JSON из документов

Datalab открыла исходный код Lift — модели на 9B параметров. Она извлекает структурированные данные из многостраничных PDF и изображений. Разработчик передает любую JSON-схему, а модель возвращает валидный JSON-объект. Поддерживаются вложенные объекты и массивы. Данные собираются за один проход, даже при разрыве страниц.

В бенчмарке на 225 документов точность полей достигает 90.2%. Это сопоставимо с проприетарной Gemini Flash 3.5 с её 91.3%. Специализированная открытая модель NuExtract3 выдает только 81.5%. Медианная задержка при обработке документа составляет 9.5 секунды. Декодирование с ограничением по схеме гарантирует строгую типизацию результата.

Для запуска достаточно выполнить команду pip install lift-pdf. Проект поддерживает два режима инференса: через сервер vLLM или локально. В комплекте идет утилита командной строки и приложение на Streamlit. Оно помогает быстро собирать и тестировать схемы на реальных документах. Веса распространяются по лицензии OpenRAIL-M. Она бесплатна для компаний с доходом до 5 млн долларов.

Datalab выпустила модель Lift для извлечения JSON из документов

Ещё публикации

Datalab выпустила модель Lift для извлечения JSON из документов

Ещё публикации