Добавить в избранное

Команда Kandinsky Lab опубликовала алгоритм KVAE-Audio с открытым исходным кодом. Это полнодиапазонный непрерывный автоэнкодер, который обрабатывает звук с частотой дискретизации 48 кГц и сжимает исходный сигнал по времени в 960 раз. В результате формируется компактное латентное пространство, ограниченное 64 каналами, что позволяет трансформировать сырые данные в плотное представление, сохраняя высокую точность акустической реконструкции.

Основная задача инструмента сводится к созданию оптимизированного базиса для генеративных моделей. Сжатие аудиоданных в сотни раз снижает вычислительную нагрузку при обучении нейросетей, поскольку им больше не требуется анализировать исходные волновые сигналы напрямую. При этом интеграция KVAE-Audio в пайплайн преобразования текста в звук приводит к росту качества генерации даже при условии использования фиксированной архитектуры базового генератора.

Алгоритм насчитывает 166,9 миллиона параметров, что делает его компактнее многих индустриальных аналогов. Оценка качества восстановления на наборах данных AudioSet и LibriSpeech подтверждает, что модель эффективно балансирует между степенью компрессии и точностью звучания. В ряде объективных метрик решение успешно конкурирует с более ресурсоемкими архитектурами, включая SAME-L на 852 миллиона параметров и MMAudio, при реконструкции речи, музыки и общих шумов.

Команда Kandinsky Lab выпустила KVAE-Audio — открытый автоэнкодер, сжимающий звук в 960 раз для обучения генеративных моделей

Ещё публикации

Команда Kandinsky Lab выпустила KVAE-Audio — открытый автоэнкодер, сжимающий звук в 960 раз для обучения генеративных моделей

Ещё публикации