Исследователи из Мюнхенского технического университета и Huawei выложили Face Anything — метод для 4D-реконструкции лиц из последовательности кадров. Главная деталь пайплайна: вместо сложного вычисления межкадрового движения модель предсказывает канонические координаты. Каждый пиксель сразу получает нормализованную позицию в едином пространстве, что сводит плотный трекинг к базовому поиску ближайших соседей.
Внутри работает трансформерная архитектура с головой в стиле DPT, которая за один проход выдает карту глубин, направления лучей и канонические лицевые карты. Для обучения авторы собрали масштабный датасет на базе мультиракурсных съемок NeRSemble. Геометрию просчитывали через COLMAP, а затем выравнивали по топологии FLAME. Это дало плотный контроль над пространственными соответствиями: ошибка трекинга упала в три раза по сравнению с предыдущими методами динамической реконструкции, а точность определения глубины выросла на 16%.
На выходе алгоритм генерирует карты глубины и облака точек. На текущем этапе сырая 3D-геометрия все еще заметно «кипит» при воспроизведении видео, поэтому для чистой полномасштабной реконструкции результат получается слишком грязным. Однако благодаря стабильному плотному трекингу инструмент отлично подходит для помощи в сложном композе или для создания эффектов легкого облета камеры вокруг лица на базе плоского футажа.
Поделиться:
Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite
Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов