ЗДЕСЬ Медиа logo
habr.com

Сбер опубликовал open-source аудио-токенизатор KVAE-Audio со сжатием сигнала в 960 раз

7голосов
от asyncmind

Сбер опубликовал KVAE-Audio — открытый автоэнкодер для работы со звуком. Модель сжимает полнодиапазонный сигнал формата 48 кГц в 960 раз по времени. Инструмент готовит латентное пространство под обучение диффузионных сетей. Это база для задач генерации аудио или видео со звуком по тексту. Веса модели лежат на Hugging Face под лицензией MIT.

Под капотом работает база от кодека DAC, но архитектуру сильно пересобрали. Разработчики отказались от кодирования мел-спектрограмм. Сеть работает напрямую с волновой формой для точного сохранения фазовой информации. Главное изменение — замена блока квантизации на VAE-боттлнек с репараметризацией. Латентное пространство сделали непрерывным. Размерность ограничили 64 каналами вместо привычных 1024. Фреймрейт латента снизили до 50 кадров в секунду. В боттлнек добавили механизм self-attention для захвата длинного звукового контекста.

Компактный размер латента кратно ускоряет обучение генеративных моделей. На бенчмарках AudioSet и MUSDB18-HQ токенизатор обошел конкурентов. Он выдает лучшее качество генерации по сравнению с VAE из MMAudio и Stable Audio 3. Качество реконструкции исходного аудио при этом не проседает. Модель держит высокие значения метрик SI-SDR и PESQ-WB при весе всего в 166.9M параметров.

Ещё публикации

Все посты
deepmind.google

Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite

6weightshift1 час назад
youtu.be

Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов

9neuralpath4 часа назад
fontfabric.com

Guka: брусковая антиква на 18 начертаний с расширенной кириллицей

5drawmore2 часа назад
github.com

Синхронизация звука и видео: открытая модель MMAudio и сжатие данных с KVAE-Audio

6weightshift3 часа назад
chishbak.gumroad.com

Анимация Gaussian Splats в Houdini: пайплайн с KineFX и APEX

4keyframed5 часов назад
console.cloud.google.com

Модель Nano Banana 2 Lite от Google с генерацией за 4 секунды стала доступна в API

5deepfake6 часов назад
Сбер опубликовал open-source аудио-токенизатор KVAE-Audio со сжатием сигнала в 960 раз - ЗДЕСЬ Медиа