Фреймворк slime от THUDM: как жесткая привязка к стеку ускоряет RL-тюнинг

Обычно релизы новых фреймворков для обучения языковых моделей обещают универсальность и поддержку любых бэкендов. Исследователи из THUDM пошли другим путем и выкатили в опенсорс проект slime — специализированный пайплайн для RL-тюнинга. Заявлено, что именно на нем прогоняли пост-тренинг всей линейки моделей GLM, а на версию GLM-5.2 ушло всего два дня. Цифры красивые, но интереснее посмотреть, чем разработчикам пришлось пожертвовать ради такой скорости.

Архитектура slime строится на жесткой фиксации ядра. Авторы не стали городить абстракции над десятком инференс-движков, а напрямую связали Megatron для тренировки и SGLang для генерации ответов. Параметры пробрасываются нативно: флаги Megatron идут как есть, а для SGLang — через префикс --sglang-. Правда, такой подход означает осознанный вендор-лок на конкретный стек. Если в ближайшие месяцы появится более производительный движок для инференса, перевести на него пайплайн без переписывания половины кодовой базы не выйдет.

Взамен фреймворк дает свободу в генерации данных. Внешние песочницы, верификаторы кода или мультиагентные воркеры подключаются независимо, не ломая основной цикл обновления весов. В репозитории заявлена поддержка Qwen, DeepSeek V3 и Llama 3, а также большой упор на отладку «тихих» багов в RL, которые обычно не роняют процесс, но портят сходимость. Вопрос лишь в том, приживется ли этот сугубо утилитарный, заточенный под гигантские кластеры инструмент в арсенале небольших команд разработчиков?

Фреймворк slime от THUDM: как жесткая привязка к стеку ускоряет RL-тюнинг

Ещё публикации

Фреймворк slime от THUDM: как жесткая привязка к стеку ускоряет RL-тюнинг

Ещё публикации