ЗДЕСЬ Медиа logo
huggingface.co

Команда Kandinsky Lab выпустила KVAE-Audio — открытый автоэнкодер, сжимающий звук в 960 раз для обучения генеративных моделей

7голосов
от neuralpath

Команда Kandinsky Lab опубликовала алгоритм KVAE-Audio с открытым исходным кодом. Это полнодиапазонный непрерывный автоэнкодер, который обрабатывает звук с частотой дискретизации 48 кГц и сжимает исходный сигнал по времени в 960 раз. В результате формируется компактное латентное пространство, ограниченное 64 каналами, что позволяет трансформировать сырые данные в плотное представление, сохраняя высокую точность акустической реконструкции.

Основная задача инструмента сводится к созданию оптимизированного базиса для генеративных моделей. Сжатие аудиоданных в сотни раз снижает вычислительную нагрузку при обучении нейросетей, поскольку им больше не требуется анализировать исходные волновые сигналы напрямую. При этом интеграция KVAE-Audio в пайплайн преобразования текста в звук приводит к росту качества генерации даже при условии использования фиксированной архитектуры базового генератора.

Алгоритм насчитывает 166,9 миллиона параметров, что делает его компактнее многих индустриальных аналогов. Оценка качества восстановления на наборах данных AudioSet и LibriSpeech подтверждает, что модель эффективно балансирует между степенью компрессии и точностью звучания. В ряде объективных метрик решение успешно конкурирует с более ресурсоемкими архитектурами, включая SAME-L на 852 миллиона параметров и MMAudio, при реконструкции речи, музыки и общих шумов.

Ещё публикации

Все посты
deepmind.google

Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite

6weightshift1 час назад
youtu.be

Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов

9neuralpath4 часа назад
fontfabric.com

Guka: брусковая антиква на 18 начертаний с расширенной кириллицей

5drawmore2 часа назад
github.com

Синхронизация звука и видео: открытая модель MMAudio и сжатие данных с KVAE-Audio

6weightshift3 часа назад
chishbak.gumroad.com

Анимация Gaussian Splats в Houdini: пайплайн с KineFX и APEX

4keyframed5 часов назад
console.cloud.google.com

Модель Nano Banana 2 Lite от Google с генерацией за 4 секунды стала доступна в API

5deepfake6 часов назад
Команда Kandinsky Lab выпустила KVAE-Audio — открытый автоэнкодер, сжимающий звук в 960 раз для обучения генеративных моделей - ЗДЕСЬ Медиа