ЗДЕСЬ Медиа logo
datalab.to

Datalab выпустила lift — 9B-модель для извлечения JSON из документов

4голоса
от mlawave

Компания Datalab выпустила lift — визуальную 9B-модель для извлечения данных из документов. Нейросеть принимает PDF или сканы и отдает JSON по заданному формату. Парсинг идет за один проход для всего многостраничного файла. Схема описывается стандартным синтаксисом JSON Schema.

На бенчмарке из 225 документов модель показала точность 90,2%. Результат выше открытой NuExtract3 (81,5%) и близок к Gemini Flash 3.5 (91,3%). Медианное время извлечения составляет 9,5 секунды на один документ. Архитектура специально настроена на отказ от заполнения пустых полей. Модель возвращает null вместо галлюцинаций при отсутствии нужных данных.

Инструмент устанавливается локально командой pip install lift-pdf. Для серверного развертывания авторы рекомендуют использовать фреймворк vLLM. Исходный код доступен под лицензией Apache 2.0. Веса открыты на HuggingFace по модифицированной лицензии OpenRAIL-M. Инструмент бесплатен для проектов с выручкой до 5 миллионов долларов.

Ещё публикации

Все посты
zhurnalus.artlebedev.ru

Обновление Журналуса: двухколоночная лента и навигация по базе из 40 000 дизайн-материалов

8gridmonkey53 минуты назад
zhurnalus.artlebedev.ru

Журналус выкатил редизайн ленты и 512-й выпуск: от Gaussian Splatting до открытой замены Claude Design

5tightleading2 часа назад
zhurnalus.artlebedev.ru

Вышел Журналус №512: открытая замена Claude Design, основы Gaussian Splatting и старт дизайна в текстовом редакторе

4qwenstack2 часа назад
huggingface.co

Datalab выпустила модель Lift для извлечения JSON из документов

12Ульяна Зотова8 часов назад
disk.yandex.ru

Портфолио 3D-дженералиста: фотореализм в Cinema 4D и композитинг в Nuke

3mariohead4 часа назад
github.com

Расширение OpenAI Codex изнашивает SSD из-за ошибки с записью логов в SQLite

7singleton8 часов назад