Face Anything: 4D-реконструкция лиц из видео через предсказание канонических координат

Исследователи из Мюнхенского технического университета и Huawei выложили Face Anything — метод для 4D-реконструкции лиц из последовательности кадров. Главная деталь пайплайна: вместо сложного вычисления межкадрового движения модель предсказывает канонические координаты. Каждый пиксель сразу получает нормализованную позицию в едином пространстве, что сводит плотный трекинг к базовому поиску ближайших соседей.

Внутри работает трансформерная архитектура с головой в стиле DPT, которая за один проход выдает карту глубин, направления лучей и канонические лицевые карты. Для обучения авторы собрали масштабный датасет на базе мультиракурсных съемок NeRSemble. Геометрию просчитывали через COLMAP, а затем выравнивали по топологии FLAME. Это дало плотный контроль над пространственными соответствиями: ошибка трекинга упала в три раза по сравнению с предыдущими методами динамической реконструкции, а точность определения глубины выросла на 16%.

На выходе алгоритм генерирует карты глубины и облака точек. На текущем этапе сырая 3D-геометрия все еще заметно «кипит» при воспроизведении видео, поэтому для чистой полномасштабной реконструкции результат получается слишком грязным. Однако благодаря стабильному плотному трекингу инструмент отлично подходит для помощи в сложном композе или для создания эффектов легкого облета камеры вокруг лица на базе плоского футажа.

Face Anything: 4D-реконструкция лиц из видео через предсказание канонических координат

Ещё публикации

Face Anything: 4D-реконструкция лиц из видео через предсказание канонических координат

Ещё публикации