DeepSeek выкатил DeepSpec — полноценную кодовую базу для обучения и оценки алгоритмов спекулятивного декодирования. Вместе с ней представили DSpark: метод генерации черновиков для DeepSeek V4 Flash и Pro, повышающий пропускную способность инференса на 51–400%. Архитектура не заперта внутри одной экосистемы: пайплайн изначально поддерживает работу с открытыми LLM, включая семейства Qwen3 и Gemma.
Фреймворк закрывает весь цикл работы с draft-моделями, от подготовки датасета до финального бенчмаркинга. Процесс строго последовательный, но требует серьезной инфраструктуры на этапе кеширования таргетов. Разработчики предупреждают, что базовая подготовка данных для Qwen/Qwen3-4B занимает около 38 ТБ дискового пространства. Само обучение запускается через простые bash-скрипты и по умолчанию рассчитано на ноду с восемью GPU.
Помимо DSpark, в репозиторий интегрированы алгоритмы DFlash и Eagle3, а готовые чекпоинты уже доступны для загрузки. Для продакшена со специфичными задачами авторы рекомендуют файн-тюнить draft-модели самостоятельно, особенно если целевая LLM будет работать в режиме рассуждения. Код открыт под лицензией MIT и базируется на архитектуре SpecForge, стандартизируя подходы к ускорению генерации текста.
Поделиться:
OpenHuman: 33 тысячи звёзд за месяц и цена удобного десктопного ИИ-ассистента
Разработка Khanoku Phoenix: ИИ-мудборды для препродакшена и поиск 2D-художников