NVIDIA открыла исходный код модели визуальной локализации LocateAnything-3B. Главное отличие архитектуры — отказ от привычной последовательной генерации координат. Вместо того чтобы предсказывать значения x1, y1, x2 и y2 по одному токену, модель использует механизм Parallel Box Decoding (PBD). Ограничивающая рамка формируется как атомарная единица за один проход, что сохраняет геометрическую связность и устраняет главное узкое место в скорости вывода VLM.
За счет параллельного декодирования пропускная способность на одном ускорителе H100 достигает 12.7 BPS, что в десять раз быстрее Qwen3-VL. По умолчанию модель работает в гибридном режиме: если при параллельной генерации возникает пространственная неоднозначность, алгоритм точечно откатывается к классическому авторегрессионному декодированию проблемного участка. Такой подход позволяет безошибочно выделять отдельные элементы даже в экстремально плотных сценах — например, когда десятки объектов перекрывают друг друга.
В основе модели лежит собственный набор данных LocateAnything-Data, содержащий 138 миллионов текстовых запросов и 785 миллионов рамок. Архитектура заточена не только под поиск физических предметов, но и под анализ графических интерфейсов, чтение OCR и разбор структуры сложных документов. Разработчики уже выложили скрипты для LoRA-дообучения и батч-инференса, а поддержка визуальных промптов ожидается в следующих релизах весов.
Поделиться:
OpenHuman: 33 тысячи звёзд за месяц и цена удобного десктопного ИИ-ассистента
Разработка Khanoku Phoenix: ИИ-мудборды для препродакшена и поиск 2D-художников