Добавить в избранное

DeepSeek выкатил DeepSpec — полноценную кодовую базу для обучения и оценки алгоритмов спекулятивного декодирования. Вместе с ней представили DSpark: метод генерации черновиков для DeepSeek V4 Flash и Pro, повышающий пропускную способность инференса на 51–400%. Архитектура не заперта внутри одной экосистемы: пайплайн изначально поддерживает работу с открытыми LLM, включая семейства Qwen3 и Gemma.

Фреймворк закрывает весь цикл работы с draft-моделями, от подготовки датасета до финального бенчмаркинга. Процесс строго последовательный, но требует серьезной инфраструктуры на этапе кеширования таргетов. Разработчики предупреждают, что базовая подготовка данных для Qwen/Qwen3-4B занимает около 38 ТБ дискового пространства. Само обучение запускается через простые bash-скрипты и по умолчанию рассчитано на ноду с восемью GPU.

Помимо DSpark, в репозиторий интегрированы алгоритмы DFlash и Eagle3, а готовые чекпоинты уже доступны для загрузки. Для продакшена со специфичными задачами авторы рекомендуют файн-тюнить draft-модели самостоятельно, особенно если целевая LLM будет работать в режиме рассуждения. Код открыт под лицензией MIT и базируется на архитектуре SpecForge, стандартизируя подходы к ускорению генерации текста.

DeepSeek открыл DeepSpec: пайплайн для спекулятивного декодирования и алгоритм DSpark, ускоряющий инференс до 400%

Ещё публикации

DeepSeek открыл DeepSpec: пайплайн для спекулятивного декодирования и алгоритм DSpark, ускоряющий инференс до 400%

Ещё публикации