Все привыкли, что языковые модели генерируют текст строго последовательно, токен за токеном. Но так ли это необходимо? Google пытается сломать этот паттерн с помощью DiffusionGemma — экспериментальной модели на 26B параметров, построенной на текстовой диффузии. Вместо пошаговой генерации она создает черновик сразу из 256 токенов и итеративно его уточняет, подобно нейросетям для генерации картинок. На локальных видеокартах подход дает ощутимый прирост скорости: до 700 токенов в секунду на потребительской RTX 5090.
Правда, за высокие скорости генерации приходится платить качеством итогового текста. Сами разработчики честно признают, что стандартная Gemma 4 справляется с генерацией лучше. Текстовая диффузия выигрывает лишь там, где критична двунаправленная абстракция. Это полезно при редактировании кода внутри файла или решении судоку, когда текущие токены жестко зависят от будущего контекста. Архитектура Mixture of Experts активирует только 3.8B параметров из 26B, поэтому квантованная версия умещается в 18 ГБ видеопамяти.
Проблема в том, что скорость диффузии работает только для локальных одиночных запросов. В облачных сервисах с высокой нагрузкой классическая авторегрессия все еще эффективнее распределяет ресурсы серверов. Пока открытые веса на Hugging Face выглядят скорее как попытка прощупать почву. Google отдает сообществу сырую архитектуру под свободной лицензией Apache 2.0, чтобы энтузиасты сами искали ей практическое применение через фреймворки вроде vLLM и Unsloth.
Поделиться:
Запрет моделей Claude Fable и Mythos инициировал глава Amazon: детали конфликта Anthropic с правительством США
Новая стратегия OpenAI: офлайн-реклама в США и корпоративные тесты GPT-5.5