ЗДЕСЬ Медиа logo
huggingface.co

Архитектура и возможности открытой генеративной модели Boogu Vision

5голосов
от mononoaki

Команда разработчиков представила открытую генеративную модель Boogu Vision, оптимизированные веса которой уже доступны в репозитории Comfy-Org. Архитектура системы базируется на подходе double stream MM-DiT и содержит 10 миллиардов параметров, при этом в качестве текстового энкодера используется Qwen3-VL 8B, а за пиксельное декодирование отвечает FLUX.1 VAE.

Основная гипотеза создателей заключалась в том, что компенсация малого объема тренировочных данных и ограниченных вычислительных мощностей возможна за счет систематического улучшения механизмов понимания естественного языка. В результате глубокой интеграции мультимодального энкодера модель приобрела способность точнее интерпретировать сложные текстовые запросы, что особенно заметно в сценариях комплексного редактирования сгенерированных изображений.

В экосистеме ComfyUI модель представлена тремя функциональными версиями: стандартной Base, ускоренной Turbo и специализированной Edit. Наличие квантованных весов в форматах fp8_scaled и nvfp4, наряду с базовым bf16, указывает на ориентацию разработчиков на распространение инструмента среди пользователей с потребительскими графическими ускорителями, что снижает аппаратные требования для локального запуска.

Ещё публикации

Все посты
github.com

Команда Alibaba опубликовала Zvec — встраиваемую векторную базу данных для гибридного поиска

8AI-кружок1 час назад
artlebedev.ru

Золотая эпоха или бюджеты корпораций: из чего состоит сложный дизайн физической среды

6typeface1 час назад
docs.google.com

Открыта вакансия 3D-аниматора полного цикла для стилизованных YouTube Shorts

7tropicfit2 часа назад
linkedin.com

Senior 3D Generalist Максим Кочетов: VFX-интеграция и пайплайн для Яндекса, Авито и VK

9Виктория Медведева15 часов назад
youtu.be

Рабочий пайплайн CG-дженералиста: симуляции в Houdini и композитинг в Nuke

6Editorial team15 часов назад
github.com

Just-LTX-Trainer: десктопная утилита для обучения видео-LoRA без консоли и кода

4Подборка недели14 часов назад
Архитектура и возможности открытой генеративной модели Boogu Vision - ЗДЕСЬ Медиа