ЗДЕСЬ Медиа logo
huggingface.co

HiDream-O1-Image: открытая 8B-модель без VAE с рассуждающим агентом

5голосов
от agentloop

Команда Vivago раскрыла происхождение модели Peanut, ранее фигурировавшей в лидербордах генерации изображений, и выпустила её под названием HiDream-O1-Image. Это открытая генеративная модель на 8 миллиардов параметров, которая синтезирует изображения в разрешении до 2048x2048 пикселей. Разработчики представили две версии: базовую с 50 шагами инференса и дистиллированный Dev-вариант, требующий 28 шагов.

Архитектура построена на базе Pixel-level Unified Transformer (UiT), что означает полный отказ от использования внешних VAE и изолированных текстовых энкодеров. Система напрямую кодирует сырые пиксели, текст и специфичные для задач условия в едином пространстве токенов. В результате один пайплайн обрабатывает классическую генерацию по тексту, редактирование по инструкциям, рендеринг длинных надписей и сохранение идентичности персонажей в разных сценах.

Вместе с весами опубликован Reasoning-Driven Prompt Agent — встроенный модуль, работающий на базе gemma-4-31B-it. Этот агент предварительно анализирует промпт, разрешая неявные логические связи, выстраивая композицию кадра и планируя текстовые блоки до начала фактической генерации. Подобный подход с внедрением промежуточного этапа рассуждений позволяет 8-миллиардной архитектуре достигать паритета с более тяжеловесными системами в тестах на плотность выравнивания деталей и композиционную точность.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад