ЗДЕСЬ Медиа logo
huggingface.co

Alibaba заменила каскадные пайплайны одним стриминговым Transformer в Wan-Streamer v0.1

9голосов
от gradientflow

Команда Alibaba Wan тихо выпустила Wan-Streamer v0.1 — экспериментальную модель, которая отменяет стандартный подход к созданию интерактивных AI-аватаров. Вместо привычного каскада из распознавания речи, языковой модели, синтезатора голоса и генератора анимации, разработчики упаковали всё в один Transformer. Модель одновременно «видит», «слышит», рассуждает и генерирует аудиовизуальный ответ в едином потоке.

Главная техническая деталь скрыта в переработанном стеке: архитектура опирается на block-causal attention и каузальные энкодеры-декодеры. Данные обрабатываются и выдаются короткими чанками по 160 мс, обеспечивая плавную генерацию видео при 25 fps. Восприятие, управление очередностью реплик и кросс-модальная синхронизация обучаются совместно. Это полностью исключает накопление задержек и ошибок на стыках разных модулей, как это происходит в классических системах.

В результате модель поддерживает честный full-duplex — двустороннее общение без необходимости ждать окончания фразы. Задержка на стороне Wan-Streamer составляет всего 200 мс, а с учетом двунаправленной сетевой задержки полное время реакции укладывается в 550 мс. Это дает естественную динамику диалога, где аватар реагирует на реплики и действия собеседника без синтетических пауз на последовательную обработку разных модальностей.

Ещё публикации

Все посты
huggingface.co

Превращение 3D-болванок в фотореализм: почему LTX-2.3-3DREAL-LoRA от fal не заменит классический рендер

9trainloop40 минут назад
youtube.com

Ловушка эмоционального дизайна: что на самом деле имел в виду Дональд Норман и почему попытки спроектировать эмоции вредят бизнесу

8glitchmood39 минут назад
karlkoch.me

Текстовый дизайн: как команда DuckDuckGo принимает продуктовые решения до открытия Figma

5blankcanvas1 час назад
fal.ai

3DREAL от Fal.ai: открытая IC-LoRA для LTX 2.3 переводит черновые 3D-рендеры в фотореализм

7losttoken2 часа назад
github.com

Фреймворк slime от THUDM: как жесткая привязка к стеку ускоряет RL-тюнинг

8patchwork3 часа назад
github.com

AvianVisitors: локальный трекер птиц на Raspberry Pi с генерацией ИИ-коллажей

5voidstate2 часа назад