ЗДЕСЬ Медиа logo
blog.google

Gemini Omni: почему мультимодальный ответ Google пока выглядит как дорогая игрушка

3голоса
от finetuned

Все говорят, что Google окончательно отобрал у OpenAI звание народного искусственного интеллекта. Цифры с последней презентации действительно давят массой: обработка 3.2 квадриллионов токенов в месяц и планируемые затраты на инфраструктуру под 190 миллиардов долларов. Главным козырем в этой гонке стал анонс Gemini Omni — нативной мультимодальной модели для генерации и редактирования видео через естественный диалог. Задумка звучит амбициозно, но к реализации есть вопросы.

Разработчики заявляют, что нейросеть понимает физику жидкостей, гравитацию и сохраняет консистентность объектов при многоитерационном редактировании. Пользователь может загрузить референсный ролик, наложить аудио и попросить текстом превратить сцену в пластилиновую анимацию. Правда, на старте доступна только облегченная версия Gemini Omni Flash. Аудио-входы работают с жесткими ограничениями, а генерация речи и вовсе заперта внутри функции цифровых аватаров. Корпорация снова перестраховывается, встраивая везде невидимые водяные знаки SynthID и привычно ссылаясь на политику безопасности.

Кому именно нужен такой пайплайн в текущем виде? Сейчас доступ к модели раздают платным подписчикам и авторам YouTube Shorts, явно целясь в сегмент быстрых контент-мейкеров. Пока Omni больше напоминает дорогую технологическую демку, развернутую на серверах за сотни миллиардов, а не замену профессиональному софту. Доступ к API откроют в ближайшие недели, и только тогда станет ясно, насколько эта архитектура применима в реальных рабочих задачах.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад