Генерация аудио тихо переходит из формата оффлайн-рендера в лайв-инструменты. Разработчики собрали сетап, который работает как Stream Diffusion, но для звука — процессом теперь управляют через физические MIDI-контроллеры.
В основе проекта лежит опенсорсная архитектура ACEStep1.5. Движок запускается локально на картах уровня RTX 3090 или 4090, а аппаратные фейдеры напрямую меняют параметры инференса. Такой подход убирает задержку между вводом и результатом: генеративная модель ведет себя как классический хардверный синтезатор для создания лупов и ремиксов в реальном времени.
Базовое звучание можно переключать прямо на лету. Для этого автор проекта выложил пакет экспериментальных LoRA, заточенных под лайв-интерфейс DEMON. Доступны веса для жанров Phonk, Deephouse, Ambient и Deathstep, натренированные на синтетических датасетах. Важная техническая деталь: для корректного инференса каждого .safetensors чекпоинта требуется положить рядом оригинальный .json конфиг, иначе движок не подхватит метаданные при живом сведении.
Поделиться:
taste-skill: можно ли запрограммировать хороший вкус для AI-агентов
Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust