Это один из самых сильных открытых релизов для работы с длинным контекстом. Команда Z.ai выпустила GLM-5.2 — флагманскую LLM, которая стабильно обрабатывает честный миллион токенов. Самое крутое здесь то, что веса отдали под максимально свободной лицензией MIT, полностью убрав любые региональные ограничения!
Чтобы модель не тормозила на таком объеме данных, разработчики точечно переработали архитектуру. Они внедрили механизм IndexShare, который переиспользует один и тот же индексатор каждые четыре слоя разреженного внимания. Это архитектурное решение снизило количество вычислительных операций на токен в 2.9 раза при максимальной длине контекста. Дополнительно они обновили MTP-слой для спекулятивного декодирования, увеличив длину принятия токенов на 20%.
В бенчмарках программирования и логики модель показывает отличные результаты, обходя многих закрытых конкурентов в тестах SWE-bench Pro и AIME. Для написания кода добавили гибкую настройку «усилий» мышления: теперь можно жестко контролировать баланс между скоростью генерации и глубиной рассуждений. Запускать локально можно прямо из коробки через vLLM или SGLang, а в официальном API цены оставили на прежнем уровне — $1.4 за миллион токенов на вход и $4.4 на выход.
Поделиться:
SpaceX покупает разработчиков Cursor за $60 млрд и готовит запуск аналога GitHub для ИИ-агентов
Нейросетевой фреймворк NVIDIA MotionBricks заменяет графы анимаций: 15 000 FPS и 350 000 движений в одной модели