Сбер опубликовал KVAE-Audio — открытый автоэнкодер для работы со звуком. Модель сжимает полнодиапазонный сигнал формата 48 кГц в 960 раз по времени. Инструмент готовит латентное пространство под обучение диффузионных сетей. Это база для задач генерации аудио или видео со звуком по тексту. Веса модели лежат на Hugging Face под лицензией MIT.
Под капотом работает база от кодека DAC, но архитектуру сильно пересобрали. Разработчики отказались от кодирования мел-спектрограмм. Сеть работает напрямую с волновой формой для точного сохранения фазовой информации. Главное изменение — замена блока квантизации на VAE-боттлнек с репараметризацией. Латентное пространство сделали непрерывным. Размерность ограничили 64 каналами вместо привычных 1024. Фреймрейт латента снизили до 50 кадров в секунду. В боттлнек добавили механизм self-attention для захвата длинного звукового контекста.
Компактный размер латента кратно ускоряет обучение генеративных моделей. На бенчмарках AudioSet и MUSDB18-HQ токенизатор обошел конкурентов. Он выдает лучшее качество генерации по сравнению с VAE из MMAudio и Stable Audio 3. Качество реконструкции исходного аудио при этом не проседает. Модель держит высокие значения метрик SI-SDR и PESQ-WB при весе всего в 166.9M параметров.
Поделиться:
Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite
Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов