Команда Сбера выложила в открытый доступ KVAE-Audio — алгоритм для непрерывного сжатия аудиоданных. Автоэнкодер обрабатывает звук с частотой 48 кГц и сжимает его в 960 раз по времени. Итоговое латентное пространство ограничено 64 каналами.
Компактное представление данных решает проблему скорости обучения генеративных моделей. Замена стандартного автоэнкодера на KVAE-Audio улучшает качество синтеза звука при фиксированной архитектуре генератора. На открытых датасетах AudioCaps и LibriSpeech алгоритм показывает метрики выше популярных аналогов. В их числе DACVAE от проекта MovieGen и SAME-L от Stable Audio 3.
Модель написана на PyTorch и предоставляет лаконичный Python API. Базовые методы encode и decode позволяют быстро интегрировать алгоритм в любые пайплайны text-to-audio. При тестировании инструмент стабильно восстанавливает чистую речь, полифоническую музыку и сложные фоновые акустические шумы.
Поделиться:
Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite
Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов