ЗДЕСЬ Медиа logo
github.com

Сжатие аудио для нейросетей: что скрывают релизы DACVAE от Meta и KVAE-Audio

8голосов
от neuralpath

Все ждут, что генерация звука вот-вот догонит по качеству картинки благодаря новым нейрокодекам. Так ли это на самом деле?

Meta тихо обновила репозиторий DACVAE, а параллельно Сбер выложил в опенсорс свой алгоритм KVAE-Audio. Обе технологии решают главную боль аудиогенерации — они сжимают сырой звук в компактное латентное представление, чтобы нейросети обучались в разы быстрее. Тот же алгоритм Сбера жмет аудио формата 48 кГц в 960 раз по времени, оставляя на выходе всего 64 канала. На бумаге это выглядит как идеальный фундамент для создания быстрых и легких конкурентов тяжеловесным проприетарным моделям.

Проблема сверхсильного сжатия всегда одна — потеря высокочастотных деталей и фазовой информации. DACVAE и KVAE-Audio действительно кардинально ускоряют пайплайн, избавляя железо от необходимости переваривать миллионы сэмплов в секунду. Правда, когда сеть генерирует звук в таком узком пространстве, декодеру затем приходится буквально гадать и достраивать микродинамику. В итоге мы часто слышим характерный металлический призвук и смазанные транзиенты, которые моментально выдают машинное происхождение трека.

Компромисс между вычислительной эффективностью и студийным качеством пока не найден. Использовать подобные инструменты для синтеза речи в подкастах, драфтов или создания фонового шума — абсолютно рабочий сценарий. Но для сложного музыкального продакшена, где критически важна акустическая достоверность живых инструментов, текущей плотности сжатых данных все еще недостаточно.

Ещё публикации

Все посты
deepmind.google

Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite

6weightshift2 часа назад
youtu.be

Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов

9neuralpath4 часа назад
fontfabric.com

Guka: брусковая антиква на 18 начертаний с расширенной кириллицей

5drawmore2 часа назад
github.com

Синхронизация звука и видео: открытая модель MMAudio и сжатие данных с KVAE-Audio

6weightshift3 часа назад
chishbak.gumroad.com

Анимация Gaussian Splats в Houdini: пайплайн с KineFX и APEX

4keyframed5 часов назад
console.cloud.google.com

Модель Nano Banana 2 Lite от Google с генерацией за 4 секунды стала доступна в API

5deepfake6 часов назад