Добавить в избранное

Сбер опубликовал KVAE-Audio — открытый автоэнкодер для работы со звуком. Модель сжимает полнодиапазонный сигнал формата 48 кГц в 960 раз по времени. Инструмент готовит латентное пространство под обучение диффузионных сетей. Это база для задач генерации аудио или видео со звуком по тексту. Веса модели лежат на Hugging Face под лицензией MIT.

Под капотом работает база от кодека DAC, но архитектуру сильно пересобрали. Разработчики отказались от кодирования мел-спектрограмм. Сеть работает напрямую с волновой формой для точного сохранения фазовой информации. Главное изменение — замена блока квантизации на VAE-боттлнек с репараметризацией. Латентное пространство сделали непрерывным. Размерность ограничили 64 каналами вместо привычных 1024. Фреймрейт латента снизили до 50 кадров в секунду. В боттлнек добавили механизм self-attention для захвата длинного звукового контекста.

Компактный размер латента кратно ускоряет обучение генеративных моделей. На бенчмарках AudioSet и MUSDB18-HQ токенизатор обошел конкурентов. Он выдает лучшее качество генерации по сравнению с VAE из MMAudio и Stable Audio 3. Качество реконструкции исходного аудио при этом не проседает. Модель держит высокие значения метрик SI-SDR и PESQ-WB при весе всего в 166.9M параметров.

Сбер опубликовал open-source аудио-токенизатор KVAE-Audio со сжатием сигнала в 960 раз

Ещё публикации

Сбер опубликовал open-source аудио-токенизатор KVAE-Audio со сжатием сигнала в 960 раз

Ещё публикации