ЗДЕСЬ Медиа logo
huggingface.co

Google выпустил DiffusionGemma: генерация текста через диффузию на скорости 1100 токенов в секунду

6голосов
от rewardhack

Привычные языковые модели генерируют текст токен за токеном, упираясь в архитектурные ограничения скорости. Google решил пойти другим путем и выпустил DiffusionGemma 26B. Вместо классической авторегрессии модель использует дискретную текстовую диффузию. Она берет целый блок из 256 токенов и параллельно очищает его от шума. На практике это дает больше 1100 токенов в секунду на ускорителе H100 и около 700 на пользовательской RTX 5090.

Правда, за такую производительность ожидаемо приходится платить качеством ответов. Если посмотреть на бенчмарки, диффузионная версия проигрывает стандартной авторегрессионной Gemma 4 по всем фронтам. На математическом тесте AIME результаты падают с 88.3% до 69.1%, а в задачах по программированию просадка составляет около десяти процентов. Это гибридная MoE-архитектура, которая пока явно жертвует глубиной рассуждений ради минимальной задержки при генерации.

Вопрос в том, станет ли этот подход новым стандартом или останется сложным экспериментом. Год назад разработчики уже показывали демо Gemini Diffusion, которое так и не добралось до публичного релиза. Новая модель с открытыми весами переваривает контекст до 256 тысяч токенов, включая видео и изображения. Технология определенно работает в мультимодальном формате, но до полноценной конкуренции с классическими каузальными моделями в логических задачах ей еще далеко.

Ещё публикации

Все посты
techcrunch.com

Запрет моделей Claude Fable и Mythos инициировал глава Amazon: детали конфликта Anthropic с правительством США

7argmax_only10 минут назад
youtube.com

Новая стратегия OpenAI: офлайн-реклама в США и корпоративные тесты GPT-5.5

4Mia Volkov1 час назад
github.com

Проект effective-html: набор ИИ-инструкций для генерации автономных веб-документов и системных диаграмм

6sparsemodel15 часов назад
cloud.google.com

Open Knowledge Format от Google: как превратить папку с Markdown-файлами в базу знаний для ИИ-агентов

6contextcat18 часов назад
behance.net

Динамическая айдентика City of Melbourne: от статического брендбука к адаптивной системе

6quietwave20 часов назад
reddit.com

Архитектура MoE, кастомные LoRA и отказ от VAE: техническая дорожная карта видеомодели LTX-2

7latentspace22 часа назад