Принято считать, что современные нейросети почти решили проблему быстрого создания 3D-ассетов из 2D-референсов. Но на практике большинство генераторов регулярно теряют детали исходника и искажают геометрию. Обычно базовая форма строится в усредненном пространстве, куда нужные признаки проецируются через механизмы внимания. Такой непрямой подход оставляет слишком много пространства для ошибок при формировании итогового меша.
Исследователи из Tencent попытались исправить этот недостаток в проекте Pixal3D, отказавшись от генерации в нейтральной позе. Вместо этого они используют алгоритм pixel back-projection, переносящий многомасштабные двумерные признаки напрямую в трехмерный объем. Модель сразу формирует геометрию, жестко выровненную по входному ракурсу, что действительно повышает точность совпадения.
Вопрос в том, насколько хорошо эта строгая привязка работает со скрытыми зонами сложного объекта. Разработчики упоминают агрегацию признаков из нескольких видов, но главной проблемой остается галлюцинирование невидимых частей. Впрочем, авторы опубликовали исходный код с весами и прямые сравнения с TRELLIS 2 и HY3D V3.1. Это дает возможность проверить качество реконструкции на практике, а не полагаться исключительно на удачные примеры из статьи.
Поделиться:
taste-skill: можно ли запрограммировать хороший вкус для AI-агентов
Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust