Добавить в избранное

Привычные языковые модели генерируют текст токен за токеном, упираясь в архитектурные ограничения скорости. Google решил пойти другим путем и выпустил DiffusionGemma 26B. Вместо классической авторегрессии модель использует дискретную текстовую диффузию. Она берет целый блок из 256 токенов и параллельно очищает его от шума. На практике это дает больше 1100 токенов в секунду на ускорителе H100 и около 700 на пользовательской RTX 5090.

Правда, за такую производительность ожидаемо приходится платить качеством ответов. Если посмотреть на бенчмарки, диффузионная версия проигрывает стандартной авторегрессионной Gemma 4 по всем фронтам. На математическом тесте AIME результаты падают с 88.3% до 69.1%, а в задачах по программированию просадка составляет около десяти процентов. Это гибридная MoE-архитектура, которая пока явно жертвует глубиной рассуждений ради минимальной задержки при генерации.

Вопрос в том, станет ли этот подход новым стандартом или останется сложным экспериментом. Год назад разработчики уже показывали демо Gemini Diffusion, которое так и не добралось до публичного релиза. Новая модель с открытыми весами переваривает контекст до 256 тысяч токенов, включая видео и изображения. Технология определенно работает в мультимодальном формате, но до полноценной конкуренции с классическими каузальными моделями в логических задачах ей еще далеко.

Google выпустил DiffusionGemma: генерация текста через диффузию на скорости 1100 токенов в секунду

Ещё публикации

Google выпустил DiffusionGemma: генерация текста через диффузию на скорости 1100 токенов в секунду

Ещё публикации