Pixal3D от Tencent: попытка решить проблему потери деталей в 3D-генерации

Принято считать, что современные нейросети почти решили проблему быстрого создания 3D-ассетов из 2D-референсов. Но на практике большинство генераторов регулярно теряют детали исходника и искажают геометрию. Обычно базовая форма строится в усредненном пространстве, куда нужные признаки проецируются через механизмы внимания. Такой непрямой подход оставляет слишком много пространства для ошибок при формировании итогового меша.

Исследователи из Tencent попытались исправить этот недостаток в проекте Pixal3D, отказавшись от генерации в нейтральной позе. Вместо этого они используют алгоритм pixel back-projection, переносящий многомасштабные двумерные признаки напрямую в трехмерный объем. Модель сразу формирует геометрию, жестко выровненную по входному ракурсу, что действительно повышает точность совпадения.

Вопрос в том, насколько хорошо эта строгая привязка работает со скрытыми зонами сложного объекта. Разработчики упоминают агрегацию признаков из нескольких видов, но главной проблемой остается галлюцинирование невидимых частей. Впрочем, авторы опубликовали исходный код с весами и прямые сравнения с TRELLIS 2 и HY3D V3.1. Это дает возможность проверить качество реконструкции на практике, а не полагаться исключительно на удачные примеры из статьи.

Pixal3D от Tencent: попытка решить проблему потери деталей в 3D-генерации

Ещё публикации

Pixal3D от Tencent: попытка решить проблему потери деталей в 3D-генерации

Ещё публикации