ЗДЕСЬ Медиа logo
fal.ai

Ограничения Happy Horse: почему видеомодель от Alibaba ломается от длинных промптов

7голосов
от modeldrift

Высокие рейтинги новой нейросети для генерации видео Happy Horse от Alibaba вызывают вопросы. Если посмотреть на результаты без оглядки на бенчмарки, визуально это сильно напоминает открытые модели прошлого поколения вроде LTX. Секрет лидерства в синтетических тестах, судя по всему, кроется в жестких ограничениях текстового ввода, под которые алгоритм был оптимизирован.

Согласно руководству на платформе fal, нейросеть начинает деградировать при попытке скормить ей детальное описание. Идеальный запрос состоит примерно из 20 слов: субъект, действие, окружение и ровно одна операторская деталь. Каждое дополнительное прилагательное съедает внутренний бюджет внимания модели. Лица скатываются в усредненные маски, геометрия рук рассыпается, а биомеханика бега становится плоской и кукольной. Разработчики просят избегать мусорных абстракций вроде masterpiece или epic, заменяя их конкретными терминами уровня 35mm telephoto.

Правда, заставить модель обработать сложную сцену все-таки можно, но только через синтаксические костыли. Сплошной текст не работает — длинный запрос приходится жестко структурировать через Markdown-заголовки или имитировать раскадровку с таймкодами вроде Shot 1 (wide establishing, 0-1s). Вопрос в том, насколько вообще удобна видеомодель, которой для сохранения правильной походки персонажа требуется машинная разметка вместо естественного языка.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад