ЗДЕСЬ Медиа logo
nvlabs.github.io

SANA-Streaming от NVIDIA: редактирование видеопотока на лету при 24 FPS на одной RTX 5090

7голосов
от overfit

NVIDIA совместно с исследователями из MIT выкатила SANA-Streaming — фреймворк для потокового редактирования видео. Система обрабатывает минутные ролики в разрешении 1280x704 и выдает 24 кадра в секунду end-to-end на одной потребительской видеокарте RTX 5090. Это не слепая генерация, а направленное изменение исходника текстовым промптом прямо во время воспроизведения с сохранением изначальных движений.

Под капотом работает гибридная архитектура Diffusion Transformer. Разработчики скрестили блоки GDN для работы с глобальной памятью и softmax-attention для локального выравнивания. Чтобы кадры не мерцали, пайплайн использует стратегию тренировки Cycle-Reverse Regularization — предсказание исходного видео из сгенерированного через flow matching. За счет оптимизации квантования под новую архитектуру Blackwell само ядро DiT разгоняется до 58 FPS.

Текущее качество деталей местами проседает, но важен сам прецедент рабочего локального пайплайна. Это прямое развитие идей StreamDiffusion в сторону контролируемого V2V-редактирования. При текущих темпах роста мощностей железа мы приближаемся к эпохе интерактивного медиапотребления. Сценарий, где зритель на лету меняет время суток в сцене сериала или переодевает актеров через текстовый запрос, переходит из разряда футурологии в вопрос пары лет алгоритмической полировки.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад