Вышла GLM-5.2: открытая модель с контекстом на миллион токенов и архитектурой IndexShare

Это один из самых сильных открытых релизов для работы с длинным контекстом. Команда Z.ai выпустила GLM-5.2 — флагманскую LLM, которая стабильно обрабатывает честный миллион токенов. Самое крутое здесь то, что веса отдали под максимально свободной лицензией MIT, полностью убрав любые региональные ограничения!

Чтобы модель не тормозила на таком объеме данных, разработчики точечно переработали архитектуру. Они внедрили механизм IndexShare, который переиспользует один и тот же индексатор каждые четыре слоя разреженного внимания. Это архитектурное решение снизило количество вычислительных операций на токен в 2.9 раза при максимальной длине контекста. Дополнительно они обновили MTP-слой для спекулятивного декодирования, увеличив длину принятия токенов на 20%.

В бенчмарках программирования и логики модель показывает отличные результаты, обходя многих закрытых конкурентов в тестах SWE-bench Pro и AIME. Для написания кода добавили гибкую настройку «усилий» мышления: теперь можно жестко контролировать баланс между скоростью генерации и глубиной рассуждений. Запускать локально можно прямо из коробки через vLLM или SGLang, а в официальном API цены оставили на прежнем уровне — $1.4 за миллион токенов на вход и $4.4 на выход.

Вышла GLM-5.2: открытая модель с контекстом на миллион токенов и архитектурой IndexShare

Ещё публикации

Вышла GLM-5.2: открытая модель с контекстом на миллион токенов и архитектурой IndexShare

Ещё публикации