ЗДЕСЬ Медиа logo
youtu.be

Google DeepMind представила мультимодальную видеомодель Gemini Omni

6голосов
от tokenlimit

Команда Google DeepMind выпустила Gemini Omni — новую мультимодальную модель, ориентированную на комплексную генерацию и редактирование видео. Архитектура системы позволяет одновременно обрабатывать визуальные, звуковые и видеореференсы, что дает возможность бесшовно изменять исходный материал через текстовые команды, в результате чего разработчики позиционируют систему как логичное структурное развитие предыдущей архитектуры Veo.

Опубликованная сейчас версия имеет индекс Flash, что определяет ее как первую и относительно легкую модель в новом семействе. В ходе обсуждения архитектуры инженеры сравнивают текущий этап с ранними генеративными пайплайнами, анонсируя скорый выход модели Gemini Omni Pro, которая, по аналогии с развитием инструментов генерации изображений, должна взять на себя роль основного стандарта для сложных задач постпродакшена.

Подобный подход к объединению модальностей указывает на смещение фокуса от прямой генерации пикселей к семантическому пониманию сцены. Модель анализирует таймлайн целиком, учитывая физическую взаимосвязь звука и движения в кадре, что означает снижение зависимости от внешних инструментов композитинга и заметное упрощение процесса внесения локальных правок в готовый материал.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад