Добавить в избранное

Команда разработчиков представила открытую генеративную модель Boogu Vision, оптимизированные веса которой уже доступны в репозитории Comfy-Org. Архитектура системы базируется на подходе double stream MM-DiT и содержит 10 миллиардов параметров, при этом в качестве текстового энкодера используется Qwen3-VL 8B, а за пиксельное декодирование отвечает FLUX.1 VAE.

Основная гипотеза создателей заключалась в том, что компенсация малого объема тренировочных данных и ограниченных вычислительных мощностей возможна за счет систематического улучшения механизмов понимания естественного языка. В результате глубокой интеграции мультимодального энкодера модель приобрела способность точнее интерпретировать сложные текстовые запросы, что особенно заметно в сценариях комплексного редактирования сгенерированных изображений.

В экосистеме ComfyUI модель представлена тремя функциональными версиями: стандартной Base, ускоренной Turbo и специализированной Edit. Наличие квантованных весов в форматах fp8_scaled и nvfp4, наряду с базовым bf16, указывает на ориентацию разработчиков на распространение инструмента среди пользователей с потребительскими графическими ускорителями, что снижает аппаратные требования для локального запуска.

Архитектура и возможности открытой генеративной модели Boogu Vision

Ещё публикации

Архитектура и возможности открытой генеративной модели Boogu Vision

Ещё публикации