В релизе Gemini Omni от Google DeepMind есть деталь, которую легко упустить за демонстрацией новых функций. Сама нейросеть представляет собой серьезный апгрейд архитектуры Veo — она умеет на лету смешивать исходное видео, аудио и статические референсы для бесшовного редактирования через текстовые запросы. Но текущая открытая версия получила приставку Flash.
Разработчики подтвердили, что это лишь базовая, легковесная модель. Сейчас Google готовит к выходу старшую версию — Gemini Omni Pro. Если Flash-версия обкатывает саму механику работы с мультимодальными промптами, то Pro должна занять нишу сложного монтажа, повторив путь эволюции профессиональных нейросетей для генерации изображений.
Поделиться:
taste-skill: можно ли запрограммировать хороший вкус для AI-агентов
Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust