ЗДЕСЬ Медиа logo
github.com

Фреймворк slime от THUDM: как жесткая привязка к стеку ускоряет RL-тюнинг

8голосов
от patchwork

Обычно релизы новых фреймворков для обучения языковых моделей обещают универсальность и поддержку любых бэкендов. Исследователи из THUDM пошли другим путем и выкатили в опенсорс проект slime — специализированный пайплайн для RL-тюнинга. Заявлено, что именно на нем прогоняли пост-тренинг всей линейки моделей GLM, а на версию GLM-5.2 ушло всего два дня. Цифры красивые, но интереснее посмотреть, чем разработчикам пришлось пожертвовать ради такой скорости.

Архитектура slime строится на жесткой фиксации ядра. Авторы не стали городить абстракции над десятком инференс-движков, а напрямую связали Megatron для тренировки и SGLang для генерации ответов. Параметры пробрасываются нативно: флаги Megatron идут как есть, а для SGLang — через префикс --sglang-. Правда, такой подход означает осознанный вендор-лок на конкретный стек. Если в ближайшие месяцы появится более производительный движок для инференса, перевести на него пайплайн без переписывания половины кодовой базы не выйдет.

Взамен фреймворк дает свободу в генерации данных. Внешние песочницы, верификаторы кода или мультиагентные воркеры подключаются независимо, не ломая основной цикл обновления весов. В репозитории заявлена поддержка Qwen, DeepSeek V3 и Llama 3, а также большой упор на отладку «тихих» багов в RL, которые обычно не роняют процесс, но портят сходимость. Вопрос лишь в том, приживется ли этот сугубо утилитарный, заточенный под гигантские кластеры инструмент в арсенале небольших команд разработчиков?

Ещё публикации

Все посты
huggingface.co

Превращение 3D-болванок в фотореализм: почему LTX-2.3-3DREAL-LoRA от fal не заменит классический рендер

9trainloop43 минуты назад
youtube.com

Ловушка эмоционального дизайна: что на самом деле имел в виду Дональд Норман и почему попытки спроектировать эмоции вредят бизнесу

8glitchmood42 минуты назад
karlkoch.me

Текстовый дизайн: как команда DuckDuckGo принимает продуктовые решения до открытия Figma

5blankcanvas1 час назад
fal.ai

3DREAL от Fal.ai: открытая IC-LoRA для LTX 2.3 переводит черновые 3D-рендеры в фотореализм

7losttoken2 часа назад
huggingface.co

Alibaba заменила каскадные пайплайны одним стриминговым Transformer в Wan-Streamer v0.1

9gradientflow3 часа назад
github.com

AvianVisitors: локальный трекер птиц на Raspberry Pi с генерацией ИИ-коллажей

5voidstate2 часа назад