ЗДЕСЬ Медиа logo
huggingface.co

Datalab выпустила модель Lift для извлечения JSON из документов

3голоса
от Ульяна Зотова

Datalab открыла исходный код Lift — модели на 9B параметров. Она извлекает структурированные данные из многостраничных PDF и изображений. Разработчик передает любую JSON-схему, а модель возвращает валидный JSON-объект. Поддерживаются вложенные объекты и массивы. Данные собираются за один проход, даже при разрыве страниц.

В бенчмарке на 225 документов точность полей достигает 90.2%. Это сопоставимо с проприетарной Gemini Flash 3.5 с её 91.3%. Специализированная открытая модель NuExtract3 выдает только 81.5%. Медианная задержка при обработке документа составляет 9.5 секунды. Декодирование с ограничением по схеме гарантирует строгую типизацию результата.

Для запуска достаточно выполнить команду pip install lift-pdf. Проект поддерживает два режима инференса: через сервер vLLM или локально. В комплекте идет утилита командной строки и приложение на Streamlit. Оно помогает быстро собирать и тестировать схемы на реальных документах. Веса распространяются по лицензии OpenRAIL-M. Она бесплатна для компаний с доходом до 5 млн долларов.

Ещё публикации

Все посты
github.com

Расширение OpenAI Codex изнашивает SSD из-за ошибки с записью логов в SQLite

7singleton2 часа назад
github.com

Избыточное логирование в OpenAI Codex приводит к записи 640 ТБ данных в год и износу SSD

5Кофе и код3 часа назад
behance.net

Пайплайн и проекты Ильи Чумакова: фотореалистичный 3D-моушен и VFX-интеграции

3keyframed2 часа назад
figma.com

Формализация профессии AI-видеокреатора в коммерческом продакшене полного цикла

8gemma_punk19 часов назад
github.com

Команда Alibaba опубликовала Zvec — встраиваемую векторную базу данных для гибридного поиска

8AI-кружок1 день назад
developers.openai.com

Обновление OpenAI Codex: функция Record & Replay для макросов и зашифрованные удаленные агенты

6Ульяна Титова1 день назад