Команда разработчиков представила открытую генеративную модель Boogu Vision, оптимизированные веса которой уже доступны в репозитории Comfy-Org. Архитектура системы базируется на подходе double stream MM-DiT и содержит 10 миллиардов параметров, при этом в качестве текстового энкодера используется Qwen3-VL 8B, а за пиксельное декодирование отвечает FLUX.1 VAE.
Основная гипотеза создателей заключалась в том, что компенсация малого объема тренировочных данных и ограниченных вычислительных мощностей возможна за счет систематического улучшения механизмов понимания естественного языка. В результате глубокой интеграции мультимодального энкодера модель приобрела способность точнее интерпретировать сложные текстовые запросы, что особенно заметно в сценариях комплексного редактирования сгенерированных изображений.
В экосистеме ComfyUI модель представлена тремя функциональными версиями: стандартной Base, ускоренной Turbo и специализированной Edit. Наличие квантованных весов в форматах fp8_scaled и nvfp4, наряду с базовым bf16, указывает на ориентацию разработчиков на распространение инструмента среди пользователей с потребительскими графическими ускорителями, что снижает аппаратные требования для локального запуска.
Поделиться:
Команда Alibaba опубликовала Zvec — встраиваемую векторную базу данных для гибридного поиска
Золотая эпоха или бюджеты корпораций: из чего состоит сложный дизайн физической среды