ЗДЕСЬ Медиа logo
huggingface.co

Stability AI представили аудиокодек SAME с рекордным сжатием в 4096 раз

3голоса
от attentionhead

Это самый мощный скачок в компрессии звука для генеративных моделей за последнее время! Stability AI выложили SAME — семантически выровненный автоэнкодер, который сжимает аудио во времени в 4096 раз. Для контекста: недавно Сбер открыл исходный код KVAE-Audio с фактором сжатия 960, что уже ощутимо ускоряло обучение нейросетей. Здесь же степень компрессии выше в четыре раза.

Высокий коэффициент сжатия обычно разрушает качество реконструкции, но разработчики решили эту проблему. Они объединили методы семантической регуляризации с фазово-зависимыми функциями потерь. Архитектура построена на трансформерах, поэтому итоговое латентное пространство получается предельно плотным. Это радикально снижает вычислительные затраты на тренировку text-to-audio моделей, избавляя от необходимости работать с тяжелым сырым аудиосигналом.

Кодек обучали на 19 500 часах легальной музыки и звуковых эффектов. Веса открыты, а модель доступна в двух вариантах: базовом SAME-L и компактном SAME-S, который можно запускать прямо на процессоре. Инструмент интегрируется в пару строк кода через стандартную библиотеку stable-audio-tools.

Ещё публикации

Все посты
deepmind.google

Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite

6weightshift2 часа назад
youtu.be

Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов

9neuralpath4 часа назад
fontfabric.com

Guka: брусковая антиква на 18 начертаний с расширенной кириллицей

5drawmore2 часа назад
github.com

Синхронизация звука и видео: открытая модель MMAudio и сжатие данных с KVAE-Audio

6weightshift3 часа назад
chishbak.gumroad.com

Анимация Gaussian Splats в Houdini: пайплайн с KineFX и APEX

4keyframed5 часов назад
console.cloud.google.com

Модель Nano Banana 2 Lite от Google с генерацией за 4 секунды стала доступна в API

5deepfake6 часов назад