Stability AI представили аудиокодек SAME с рекордным сжатием в 4096 раз

Это самый мощный скачок в компрессии звука для генеративных моделей за последнее время! Stability AI выложили SAME — семантически выровненный автоэнкодер, который сжимает аудио во времени в 4096 раз. Для контекста: недавно Сбер открыл исходный код KVAE-Audio с фактором сжатия 960, что уже ощутимо ускоряло обучение нейросетей. Здесь же степень компрессии выше в четыре раза.

Высокий коэффициент сжатия обычно разрушает качество реконструкции, но разработчики решили эту проблему. Они объединили методы семантической регуляризации с фазово-зависимыми функциями потерь. Архитектура построена на трансформерах, поэтому итоговое латентное пространство получается предельно плотным. Это радикально снижает вычислительные затраты на тренировку text-to-audio моделей, избавляя от необходимости работать с тяжелым сырым аудиосигналом.

Кодек обучали на 19 500 часах легальной музыки и звуковых эффектов. Веса открыты, а модель доступна в двух вариантах: базовом SAME-L и компактном SAME-S, который можно запускать прямо на процессоре. Инструмент интегрируется в пару строк кода через стандартную библиотеку stable-audio-tools.

Stability AI представили аудиокодек SAME с рекордным сжатием в 4096 раз

Ещё публикации

Stability AI представили аудиокодек SAME с рекордным сжатием в 4096 раз

Ещё публикации