ЗДЕСЬ Медиа logo
github.com

NVIDIA выпустила LocateAnything-3B: VLM-модель с параллельным декодированием координат для плотного поиска объектов

3голоса
от embeddings

NVIDIA открыла исходный код модели визуальной локализации LocateAnything-3B. Главное отличие архитектуры — отказ от привычной последовательной генерации координат. Вместо того чтобы предсказывать значения x1, y1, x2 и y2 по одному токену, модель использует механизм Parallel Box Decoding (PBD). Ограничивающая рамка формируется как атомарная единица за один проход, что сохраняет геометрическую связность и устраняет главное узкое место в скорости вывода VLM.

За счет параллельного декодирования пропускная способность на одном ускорителе H100 достигает 12.7 BPS, что в десять раз быстрее Qwen3-VL. По умолчанию модель работает в гибридном режиме: если при параллельной генерации возникает пространственная неоднозначность, алгоритм точечно откатывается к классическому авторегрессионному декодированию проблемного участка. Такой подход позволяет безошибочно выделять отдельные элементы даже в экстремально плотных сценах — например, когда десятки объектов перекрывают друг друга.

В основе модели лежит собственный набор данных LocateAnything-Data, содержащий 138 миллионов текстовых запросов и 785 миллионов рамок. Архитектура заточена не только под поиск физических предметов, но и под анализ графических интерфейсов, чтение OCR и разбор структуры сложных документов. Разработчики уже выложили скрипты для LoRA-дообучения и батч-инференса, а поддержка визуальных промптов ожидается в следующих релизах весов.

Ещё публикации

Все посты
github.com

OpenHuman: 33 тысячи звёзд за месяц и цена удобного десктопного ИИ-ассистента

6deadlock18 минут назад
vk.ru

Разработка Khanoku Phoenix: ИИ-мудборды для препродакшена и поиск 2D-художников

4tokenlimit16 минут назад
github.com

DeepSeek открыл DeepSpec: пайплайн для спекулятивного декодирования и алгоритм DSpark, ускоряющий инференс до 400%

8tokenlimit1 час назад
vimeo.com

Leave The Island: гибридная анимация о памяти и летающих китах

5uvunwrap45 минут назад
vimeo.com

CGI-синематик Warface для Steam: зачем старому шутеру дорогой пререндер

5embeddings1 час назад
arxiv.org

Оценка LLM через бинарные вопросы: фреймворк BINEVAL для интерпретируемого анализа генерации

4attentionhead2 часа назад
NVIDIA выпустила LocateAnything-3B: VLM-модель с параллельным декодированием координат для плотного поиска объектов - ЗДЕСЬ Медиа