Alibaba заменила каскадные пайплайны одним стриминговым Transformer в Wan-Streamer v0.1

Команда Alibaba Wan тихо выпустила Wan-Streamer v0.1 — экспериментальную модель, которая отменяет стандартный подход к созданию интерактивных AI-аватаров. Вместо привычного каскада из распознавания речи, языковой модели, синтезатора голоса и генератора анимации, разработчики упаковали всё в один Transformer. Модель одновременно «видит», «слышит», рассуждает и генерирует аудиовизуальный ответ в едином потоке.

Главная техническая деталь скрыта в переработанном стеке: архитектура опирается на block-causal attention и каузальные энкодеры-декодеры. Данные обрабатываются и выдаются короткими чанками по 160 мс, обеспечивая плавную генерацию видео при 25 fps. Восприятие, управление очередностью реплик и кросс-модальная синхронизация обучаются совместно. Это полностью исключает накопление задержек и ошибок на стыках разных модулей, как это происходит в классических системах.

В результате модель поддерживает честный full-duplex — двустороннее общение без необходимости ждать окончания фразы. Задержка на стороне Wan-Streamer составляет всего 200 мс, а с учетом двунаправленной сетевой задержки полное время реакции укладывается в 550 мс. Это дает естественную динамику диалога, где аватар реагирует на реплики и действия собеседника без синтетических пауз на последовательную обработку разных модальностей.

Alibaba заменила каскадные пайплайны одним стриминговым Transformer в Wan-Streamer v0.1

Ещё публикации

Alibaba заменила каскадные пайплайны одним стриминговым Transformer в Wan-Streamer v0.1

Ещё публикации