Datalab открыла исходный код Lift — модели на 9B параметров. Она извлекает структурированные данные из многостраничных PDF и изображений. Разработчик передает любую JSON-схему, а модель возвращает валидный JSON-объект. Поддерживаются вложенные объекты и массивы. Данные собираются за один проход, даже при разрыве страниц.
В бенчмарке на 225 документов точность полей достигает 90.2%. Это сопоставимо с проприетарной Gemini Flash 3.5 с её 91.3%. Специализированная открытая модель NuExtract3 выдает только 81.5%. Медианная задержка при обработке документа составляет 9.5 секунды. Декодирование с ограничением по схеме гарантирует строгую типизацию результата.
Для запуска достаточно выполнить команду pip install lift-pdf. Проект поддерживает два режима инференса: через сервер vLLM или локально. В комплекте идет утилита командной строки и приложение на Streamlit. Оно помогает быстро собирать и тестировать схемы на реальных документах. Веса распространяются по лицензии OpenRAIL-M. Она бесплатна для компаний с доходом до 5 млн долларов.
Поделиться:
Расширение OpenAI Codex изнашивает SSD из-за ошибки с записью логов в SQLite
Избыточное логирование в OpenAI Codex приводит к записи 640 ТБ данных в год и износу SSD