Команда Alibaba Wan тихо выпустила Wan-Streamer v0.1 — экспериментальную модель, которая отменяет стандартный подход к созданию интерактивных AI-аватаров. Вместо привычного каскада из распознавания речи, языковой модели, синтезатора голоса и генератора анимации, разработчики упаковали всё в один Transformer. Модель одновременно «видит», «слышит», рассуждает и генерирует аудиовизуальный ответ в едином потоке.
Главная техническая деталь скрыта в переработанном стеке: архитектура опирается на block-causal attention и каузальные энкодеры-декодеры. Данные обрабатываются и выдаются короткими чанками по 160 мс, обеспечивая плавную генерацию видео при 25 fps. Восприятие, управление очередностью реплик и кросс-модальная синхронизация обучаются совместно. Это полностью исключает накопление задержек и ошибок на стыках разных модулей, как это происходит в классических системах.
В результате модель поддерживает честный full-duplex — двустороннее общение без необходимости ждать окончания фразы. Задержка на стороне Wan-Streamer составляет всего 200 мс, а с учетом двунаправленной сетевой задержки полное время реакции укладывается в 550 мс. Это дает естественную динамику диалога, где аватар реагирует на реплики и действия собеседника без синтетических пауз на последовательную обработку разных модальностей.
Поделиться:
Превращение 3D-болванок в фотореализм: почему LTX-2.3-3DREAL-LoRA от fal не заменит классический рендер
Ловушка эмоционального дизайна: что на самом деле имел в виду Дональд Норман и почему попытки спроектировать эмоции вредят бизнесу