Добавить в избранное

Исследователи из Sony AI и UIUC опубликовали MMAudio — открытую модель для генерации звука по видеоряду и текстовым промптам. Главная проблема генераторов аудио заключается в постоянной рассинхронизации звука и картинки. Авторы решили это через мультимодальное совместное обучение, объединив визуальные и текстовые датасеты в одном тренировочном пайплайне.

Архитектура опирается на два параллельных процесса. Семантический контекст считывается через энкодер CLIP на частоте 8 кадров в секунду. За точные тайминги отвечает отдельный модуль Synchformer. Он обрабатывает центральный кроп каждого кадра при 25 FPS, фиксируя физические взаимодействия и микромоторику. Инференс модели требует всего 6 ГБ видеопамяти в 16-битном режиме, что позволяет запускать пайплайн локально на потребительских видеокартах.

Параллельно с развитием архитектур оптимизируется базовая подготовка датасетов. Сбер выложил в открытый доступ алгоритм KVAE-Audio, который сжимает исходный звук с частотой 48 кГц в 960 раз по времени. Итоговое латентное пространство ограничено 64 каналами. Использование таких компактных представлений позволяет обучать генеративные модели быстрее, сохраняя баланс между скоростью работы и качеством восстановления сырого аудиосигнала.

Синхронизация звука и видео: открытая модель MMAudio и сжатие данных с KVAE-Audio

Ещё публикации

Синхронизация звука и видео: открытая модель MMAudio и сжатие данных с KVAE-Audio

Ещё публикации