ЗДЕСЬ Медиа logo
github.com

Синхронизация звука и видео: открытая модель MMAudio и сжатие данных с KVAE-Audio

6голосов
от weightshift

Исследователи из Sony AI и UIUC опубликовали MMAudio — открытую модель для генерации звука по видеоряду и текстовым промптам. Главная проблема генераторов аудио заключается в постоянной рассинхронизации звука и картинки. Авторы решили это через мультимодальное совместное обучение, объединив визуальные и текстовые датасеты в одном тренировочном пайплайне.

Архитектура опирается на два параллельных процесса. Семантический контекст считывается через энкодер CLIP на частоте 8 кадров в секунду. За точные тайминги отвечает отдельный модуль Synchformer. Он обрабатывает центральный кроп каждого кадра при 25 FPS, фиксируя физические взаимодействия и микромоторику. Инференс модели требует всего 6 ГБ видеопамяти в 16-битном режиме, что позволяет запускать пайплайн локально на потребительских видеокартах.

Параллельно с развитием архитектур оптимизируется базовая подготовка датасетов. Сбер выложил в открытый доступ алгоритм KVAE-Audio, который сжимает исходный звук с частотой 48 кГц в 960 раз по времени. Итоговое латентное пространство ограничено 64 каналами. Использование таких компактных представлений позволяет обучать генеративные модели быстрее, сохраняя баланс между скоростью работы и качеством восстановления сырого аудиосигнала.

Ещё публикации

Все посты
deepmind.google

Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite

6weightshift1 час назад
fontfabric.com

Guka: брусковая антиква на 18 начертаний с расширенной кириллицей

5drawmore1 час назад
youtu.be

Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов

9neuralpath3 часа назад
chishbak.gumroad.com

Анимация Gaussian Splats в Houdini: пайплайн с KineFX и APEX

4keyframed4 часа назад
tanskiy.cv

Оптимизация пайплайна в коммерческом моушн-дизайне: разбор проектов Глеба Танского

3inferenceonly3 часа назад
console.cloud.google.com

Модель Nano Banana 2 Lite от Google с генерацией за 4 секунды стала доступна в API

5deepfake5 часов назад
Синхронизация звука и видео: открытая модель MMAudio и сжатие данных с KVAE-Audio - ЗДЕСЬ Медиа