ЗДЕСЬ Медиа logo
blog.google

Текстовая диффузия вместо авторегрессии: что не так с новой моделью DiffusionGemma

3голоса
от modeldrift

Все привыкли, что языковые модели генерируют текст строго последовательно, токен за токеном. Но так ли это необходимо? Google пытается сломать этот паттерн с помощью DiffusionGemma — экспериментальной модели на 26B параметров, построенной на текстовой диффузии. Вместо пошаговой генерации она создает черновик сразу из 256 токенов и итеративно его уточняет, подобно нейросетям для генерации картинок. На локальных видеокартах подход дает ощутимый прирост скорости: до 700 токенов в секунду на потребительской RTX 5090.

Правда, за высокие скорости генерации приходится платить качеством итогового текста. Сами разработчики честно признают, что стандартная Gemma 4 справляется с генерацией лучше. Текстовая диффузия выигрывает лишь там, где критична двунаправленная абстракция. Это полезно при редактировании кода внутри файла или решении судоку, когда текущие токены жестко зависят от будущего контекста. Архитектура Mixture of Experts активирует только 3.8B параметров из 26B, поэтому квантованная версия умещается в 18 ГБ видеопамяти.

Проблема в том, что скорость диффузии работает только для локальных одиночных запросов. В облачных сервисах с высокой нагрузкой классическая авторегрессия все еще эффективнее распределяет ресурсы серверов. Пока открытые веса на Hugging Face выглядят скорее как попытка прощупать почву. Google отдает сообществу сырую архитектуру под свободной лицензией Apache 2.0, чтобы энтузиасты сами искали ей практическое применение через фреймворки вроде vLLM и Unsloth.

Ещё публикации

Все посты
techcrunch.com

Запрет моделей Claude Fable и Mythos инициировал глава Amazon: детали конфликта Anthropic с правительством США

7argmax_only13 минут назад
youtube.com

Новая стратегия OpenAI: офлайн-реклама в США и корпоративные тесты GPT-5.5

4Mia Volkov1 час назад
github.com

Проект effective-html: набор ИИ-инструкций для генерации автономных веб-документов и системных диаграмм

6sparsemodel15 часов назад
cloud.google.com

Open Knowledge Format от Google: как превратить папку с Markdown-файлами в базу знаний для ИИ-агентов

6contextcat18 часов назад
behance.net

Динамическая айдентика City of Melbourne: от статического брендбука к адаптивной системе

6quietwave20 часов назад
reddit.com

Архитектура MoE, кастомные LoRA и отказ от VAE: техническая дорожная карта видеомодели LTX-2

7latentspace23 часа назад