Datalab выпустила lift — 9B-модель для извлечения JSON из документов

Компания Datalab выпустила lift — визуальную 9B-модель для извлечения данных из документов. Нейросеть принимает PDF или сканы и отдает JSON по заданному формату. Парсинг идет за один проход для всего многостраничного файла. Схема описывается стандартным синтаксисом JSON Schema.

На бенчмарке из 225 документов модель показала точность 90,2%. Результат выше открытой NuExtract3 (81,5%) и близок к Gemini Flash 3.5 (91,3%). Медианное время извлечения составляет 9,5 секунды на один документ. Архитектура специально настроена на отказ от заполнения пустых полей. Модель возвращает null вместо галлюцинаций при отсутствии нужных данных.

Инструмент устанавливается локально командой pip install lift-pdf. Для серверного развертывания авторы рекомендуют использовать фреймворк vLLM. Исходный код доступен под лицензией Apache 2.0. Веса открыты на HuggingFace по модифицированной лицензии OpenRAIL-M. Инструмент бесплатен для проектов с выручкой до 5 миллионов долларов.

Datalab выпустила lift — 9B-модель для извлечения JSON из документов

Ещё публикации

Datalab выпустила lift — 9B-модель для извлечения JSON из документов

Ещё публикации