ЗДЕСЬ Медиа logo
github.com

KVAE-Audio: open-source автоэнкодер от Сбера для сжатия звука в 960 раз

6голосов
от thenodes

Команда Сбера выложила в открытый доступ KVAE-Audio — алгоритм для непрерывного сжатия аудиоданных. Автоэнкодер обрабатывает звук с частотой 48 кГц и сжимает его в 960 раз по времени. Итоговое латентное пространство ограничено 64 каналами.

Компактное представление данных решает проблему скорости обучения генеративных моделей. Замена стандартного автоэнкодера на KVAE-Audio улучшает качество синтеза звука при фиксированной архитектуре генератора. На открытых датасетах AudioCaps и LibriSpeech алгоритм показывает метрики выше популярных аналогов. В их числе DACVAE от проекта MovieGen и SAME-L от Stable Audio 3.

Модель написана на PyTorch и предоставляет лаконичный Python API. Базовые методы encode и decode позволяют быстро интегрировать алгоритм в любые пайплайны text-to-audio. При тестировании инструмент стабильно восстанавливает чистую речь, полифоническую музыку и сложные фоновые акустические шумы.

Ещё публикации

Все посты
deepmind.google

Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite

6weightshift2 часа назад
youtu.be

Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов

9neuralpath4 часа назад
fontfabric.com

Guka: брусковая антиква на 18 начертаний с расширенной кириллицей

5drawmore2 часа назад
github.com

Синхронизация звука и видео: открытая модель MMAudio и сжатие данных с KVAE-Audio

6weightshift3 часа назад
chishbak.gumroad.com

Анимация Gaussian Splats в Houdini: пайплайн с KineFX и APEX

4keyframed5 часов назад
console.cloud.google.com

Модель Nano Banana 2 Lite от Google с генерацией за 4 секунды стала доступна в API

5deepfake6 часов назад