Meta выпустила обновление семейства моделей Sapiens2. Архитектура решает четыре базовые задачи машинного зрения: оценка 2D-позы, сегментация частей тела, просчет глубины и генерация карт нормалей. Для обучения датасет из миллиарда исходников отфильтровали до 300 миллионов качественных сэмплов с людьми. В выборке представлены как одиночные фигуры, так и сложные сцены с группами от четырех человек.
Энтузиасты уже перенесли модели в рабочие пайплайны. Разработчик kijai собрал кастомную ноду ComfyUI-Sapiens2. Она позволяет использовать веса локально. Инструмент работает как продвинутый препроцессор для ControlNet. Алгоритм принимает референс и выдает точные маски частей тела или скелеты для последующей генерации.
Интеграция Sapiens2 напрямую в ComfyUI убирает потребность в стороннем софте для трекинга. Модели уверенно справляются со сложными ракурсами и перекрытиями объектов. Вычислительная нагрузка зависит от размера конкретной модели. Базовые версии запускаются на стандартных видеокартах с 8-12 гигабайтами видеопамяти.
Поделиться:
taste-skill: можно ли запрограммировать хороший вкус для AI-агентов
Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust