Сжатие аудио для нейросетей: что скрывают релизы DACVAE от Meta и KVAE-Audio

Все ждут, что генерация звука вот-вот догонит по качеству картинки благодаря новым нейрокодекам. Так ли это на самом деле?

Meta тихо обновила репозиторий DACVAE, а параллельно Сбер выложил в опенсорс свой алгоритм KVAE-Audio. Обе технологии решают главную боль аудиогенерации — они сжимают сырой звук в компактное латентное представление, чтобы нейросети обучались в разы быстрее. Тот же алгоритм Сбера жмет аудио формата 48 кГц в 960 раз по времени, оставляя на выходе всего 64 канала. На бумаге это выглядит как идеальный фундамент для создания быстрых и легких конкурентов тяжеловесным проприетарным моделям.

Проблема сверхсильного сжатия всегда одна — потеря высокочастотных деталей и фазовой информации. DACVAE и KVAE-Audio действительно кардинально ускоряют пайплайн, избавляя железо от необходимости переваривать миллионы сэмплов в секунду. Правда, когда сеть генерирует звук в таком узком пространстве, декодеру затем приходится буквально гадать и достраивать микродинамику. В итоге мы часто слышим характерный металлический призвук и смазанные транзиенты, которые моментально выдают машинное происхождение трека.

Компромисс между вычислительной эффективностью и студийным качеством пока не найден. Использовать подобные инструменты для синтеза речи в подкастах, драфтов или создания фонового шума — абсолютно рабочий сценарий. Но для сложного музыкального продакшена, где критически важна акустическая достоверность живых инструментов, текущей плотности сжатых данных все еще недостаточно.

Сжатие аудио для нейросетей: что скрывают релизы DACVAE от Meta и KVAE-Audio

Ещё публикации

Сжатие аудио для нейросетей: что скрывают релизы DACVAE от Meta и KVAE-Audio

Ещё публикации