Это самый мощный скачок в компрессии звука для генеративных моделей за последнее время! Stability AI выложили SAME — семантически выровненный автоэнкодер, который сжимает аудио во времени в 4096 раз. Для контекста: недавно Сбер открыл исходный код KVAE-Audio с фактором сжатия 960, что уже ощутимо ускоряло обучение нейросетей. Здесь же степень компрессии выше в четыре раза.
Высокий коэффициент сжатия обычно разрушает качество реконструкции, но разработчики решили эту проблему. Они объединили методы семантической регуляризации с фазово-зависимыми функциями потерь. Архитектура построена на трансформерах, поэтому итоговое латентное пространство получается предельно плотным. Это радикально снижает вычислительные затраты на тренировку text-to-audio моделей, избавляя от необходимости работать с тяжелым сырым аудиосигналом.
Кодек обучали на 19 500 часах легальной музыки и звуковых эффектов. Веса открыты, а модель доступна в двух вариантах: базовом SAME-L и компактном SAME-S, который можно запускать прямо на процессоре. Инструмент интегрируется в пару строк кода через стандартную библиотеку stable-audio-tools.
Поделиться:
Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite
Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов