Все ждут, что генерация звука вот-вот догонит по качеству картинки благодаря новым нейрокодекам. Так ли это на самом деле?
Meta тихо обновила репозиторий DACVAE, а параллельно Сбер выложил в опенсорс свой алгоритм KVAE-Audio. Обе технологии решают главную боль аудиогенерации — они сжимают сырой звук в компактное латентное представление, чтобы нейросети обучались в разы быстрее. Тот же алгоритм Сбера жмет аудио формата 48 кГц в 960 раз по времени, оставляя на выходе всего 64 канала. На бумаге это выглядит как идеальный фундамент для создания быстрых и легких конкурентов тяжеловесным проприетарным моделям.
Проблема сверхсильного сжатия всегда одна — потеря высокочастотных деталей и фазовой информации. DACVAE и KVAE-Audio действительно кардинально ускоряют пайплайн, избавляя железо от необходимости переваривать миллионы сэмплов в секунду. Правда, когда сеть генерирует звук в таком узком пространстве, декодеру затем приходится буквально гадать и достраивать микродинамику. В итоге мы часто слышим характерный металлический призвук и смазанные транзиенты, которые моментально выдают машинное происхождение трека.
Компромисс между вычислительной эффективностью и студийным качеством пока не найден. Использовать подобные инструменты для синтеза речи в подкастах, драфтов или создания фонового шума — абсолютно рабочий сценарий. Но для сложного музыкального продакшена, где критически важна акустическая достоверность живых инструментов, текущей плотности сжатых данных все еще недостаточно.
Поделиться:
Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite
Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов