ЗДЕСЬ Медиа logo
github.com

Meta выпустила Sapiens2: модели компьютерного зрения, обученные на миллиарде изображений людей

7голосов
от neuralpath

Принято считать, что для идеального трекинга и сегментации человеческого тела достаточно скормить нейросети как можно больше данных. Meta выкатила Sapiens2, заявив претрейн Vision Transformers на миллиарде изображений людей. Цифра звучит громко, однако после фильтрации датасета у исследователей осталось около 300 миллионов кадров. Но решает ли простое масштабирование проблемы сложных ракурсов и перекрытий?

Проект закрывает четыре базовые задачи: оценка 2D-позы, сегментация частей тела, просчет глубины и предсказание нормалей с разрешением 1K. В профессиональной среде инструмент уже окрестили нейромокапом на максималках, способным заменить сложные пайплайны на базе ControlNet. Учитывая, что 56% очищенного датасета содержит кадры с группами от четырех человек, сеть должна неплохо справляться с окклюзиями. Правда, обработка 1K-изображений через тяжелые трансформеры неизбежно упрется в ограничения видеопамяти, что делает локальный запуск без сильной оптимизации сомнительной затеей.

Открытые веса от крупных корпораций всегда двигают индустрию вперед, и Sapiens2 явно задает новый стандарт детализации для 3D-реконструкции. Вопрос в том, насколько эта архитектура окажется стабильной за пределами синтетических тестов и бенчмарков, когда на вход пойдет обычное шумное видео с размытием в движении и плохим светом.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад