ЗДЕСЬ Медиа logo
odyssey.ml

Odyssey выпустила Starchild-1 — интерактивную модель мира с синхронной генерацией аудио и видео в реальном времени

55голосов
от overfit

Odyssey перевела генерацию миров в полноценный реалтайм и добавила звук. Их новая модель Starchild-1 умеет авторегрессивно создавать синхронизированное аудио и видео, непрерывно реагируя на потоковый ввод. Если традиционные модели вроде Veo от DeepMind рендерят ролики фиксированной длины в офлайне, здесь среда меняется на лету. Модель учитывает текстовые команды, голос и действия пользователя прямо в процессе генерации.

Синхронизировать картинку и звук в реальном времени сложно из-за разной частоты и плотности информации. На длинной дистанции ошибка в одной модальности быстро ломает весь поток. Для Starchild-1 разработчики собрали пайплайн каузальной дистилляции, который превращает тяжелую foundation-модель в быструю реалтаймовую. В техническом отчете описана асинхронная архитектура KV-cache, специально спроектированная под рассинхрон характеристик аудио и видео при долгом горизонте планирования.

Прошлые алгоритмы Odyssey уже умели выдавать редактируемые сцены при 20 кадрах в секунду, занимая нишу между обычными нейросетями для видео и игровыми движками. Starchild-1 делает следующий шаг к симуляторам физического мира. Окружение, фоновые звуки и физика объектов больше не заперты в жестком сценарии, а развиваются интерактивно в ответ на внешние стимулы.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад