Добавить в избранное

Это одно из самых прагматичных обновлений открытых LLM за последние месяцы. DeepSeek выложили DeepSeek-V4-Pro-DSpark — по сути, это не отдельная модель, а чекпойнт базовой версии с интегрированным модулем спекулятивного декодирования. Новый метод разгоняет пропускную способность инференса на 51–400%. Самое крутое, что технология универсальна: разработчики подтверждают совместимость DSpark с другими открытыми весами, включая Qwen и Gemma.

Сами базовые модели четвертой серии впечатляют оптимизацией. Старшая DeepSeek-V4-Pro представляет собой MoE-архитектуру на 1.6 триллиона параметров, из которых активно только 49 миллиардов. Младшая DeepSeek-V4-Flash имеет 284 миллиарда параметров при 13 миллиардах активных. Обе модели уверенно держат окно контекста в один миллион токенов. Благодаря гибридному механизму внимания, на максимальном контексте Pro-версия требует всего 27% вычислительных мощностей и 10% KV-кэша по сравнению с поколением V3.2. Это радикальное снижение нагрузки на железо!

Обучение проходило на базе из 32 триллионов токенов с использованием оптимизатора Muon для стабильности. В инструктивных версиях DeepSeek ввели три уровня глубины рассуждений: от базового Non-think для рутины до Think Max для сложных логических задач. На максимальных настройках логики V4 Pro показывает топовые результаты в написании кода и практически стирает грань между открытыми весами и коммерческими флагманами в многошаговых агентных сценариях.

DeepSeek-V4 и модуль DSpark: ускорение инференса до 400% и архитектура на миллион токенов

Ещё публикации

DeepSeek-V4 и модуль DSpark: ускорение инференса до 400% и архитектура на миллион токенов

Ещё публикации