Команда Kandinsky Lab опубликовала алгоритм KVAE-Audio с открытым исходным кодом. Это полнодиапазонный непрерывный автоэнкодер, который обрабатывает звук с частотой дискретизации 48 кГц и сжимает исходный сигнал по времени в 960 раз. В результате формируется компактное латентное пространство, ограниченное 64 каналами, что позволяет трансформировать сырые данные в плотное представление, сохраняя высокую точность акустической реконструкции.
Основная задача инструмента сводится к созданию оптимизированного базиса для генеративных моделей. Сжатие аудиоданных в сотни раз снижает вычислительную нагрузку при обучении нейросетей, поскольку им больше не требуется анализировать исходные волновые сигналы напрямую. При этом интеграция KVAE-Audio в пайплайн преобразования текста в звук приводит к росту качества генерации даже при условии использования фиксированной архитектуры базового генератора.
Алгоритм насчитывает 166,9 миллиона параметров, что делает его компактнее многих индустриальных аналогов. Оценка качества восстановления на наборах данных AudioSet и LibriSpeech подтверждает, что модель эффективно балансирует между степенью компрессии и точностью звучания. В ряде объективных метрик решение успешно конкурирует с более ресурсоемкими архитектурами, включая SAME-L на 852 миллиона параметров и MMAudio, при реконструкции речи, музыки и общих шумов.
Поделиться:
Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite
Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов