ЗДЕСЬ Медиа logo
heygen.com

Цифровые двойники от HeyGen: как работает Avatar V и почему 30 минут — предел стабильности

4голоса
от losttoken

Все обещают, что нейросети вот-вот заменят живые съемки, но до сих пор сгенерированные аватары слишком часто напоминали жутковатых кукол. Разработчики из HeyGen уверяют, что их новая модель Avatar V решает проблему потери сходства и эффекта зловещей долины. Теперь системе не нужны студийные фотографии — достаточно скормить ей пятнадцатисекундный ролик с веб-камеры. Модель анализирует не отдельный кадр, а контекстное окно видео целиком, вытаскивая паттерны движений, геометрию губ и микровыражения. Это позволяет отделить идентичность от внешнего вида, чтобы затем переносить ваши жесты на любую одежду и в разные локации.

Звучит убедительно, но технические ограничения никуда не исчезли. Прошлая версия сервиса опиралась на одиночные снимки, из-за чего лицо спикера неминуемо плыло при смене ракурса. В пятой итерации заявлен механизм выборочного внимания, который игнорирует неудачные кадры и фокусируется на четких переходах эмоций. Синхронизация губ при этом работает на уровне фонем для множества языков. Правда, сами создатели признают предел возможностей своей архитектуры — стабильность персонажа гарантируется только для роликов длительностью до 30 минут. Что именно произойдет с цифровым двойником на тридцать первой минуте лекции, пресс-релиз благоразумно умалчивает.

Вопрос в том, насколько зрители вообще готовы воспринимать долгие форматы от синтетических дикторов? Платформа явно целится в прагматичные бизнес-задачи: запись монотонных онбордингов, потоковая локализация курсов и массовые видеорассылки от лица руководителя. Протестировать базовую генерацию дают бесплатно, а расширенный доступ обойдется от 24 долларов в месяц при годовой подписке. Технология действительно сделала заметный шаг вперед от статичных картинок, но до полной замены харизмы живого спикера алгоритмам еще далеко.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад