KVAE-Audio: open-source автоэнкодер от Сбера для сжатия звука в 960 раз

Команда Сбера выложила в открытый доступ KVAE-Audio — алгоритм для непрерывного сжатия аудиоданных. Автоэнкодер обрабатывает звук с частотой 48 кГц и сжимает его в 960 раз по времени. Итоговое латентное пространство ограничено 64 каналами.

Компактное представление данных решает проблему скорости обучения генеративных моделей. Замена стандартного автоэнкодера на KVAE-Audio улучшает качество синтеза звука при фиксированной архитектуре генератора. На открытых датасетах AudioCaps и LibriSpeech алгоритм показывает метрики выше популярных аналогов. В их числе DACVAE от проекта MovieGen и SAME-L от Stable Audio 3.

Модель написана на PyTorch и предоставляет лаконичный Python API. Базовые методы encode и decode позволяют быстро интегрировать алгоритм в любые пайплайны text-to-audio. При тестировании инструмент стабильно восстанавливает чистую речь, полифоническую музыку и сложные фоновые акустические шумы.

KVAE-Audio: open-source автоэнкодер от Сбера для сжатия звука в 960 раз

Ещё публикации

KVAE-Audio: open-source автоэнкодер от Сбера для сжатия звука в 960 раз

Ещё публикации