ЗДЕСЬ Медиа logo
huggingface.co

DeepSeek-V4 и модуль DSpark: ускорение инференса до 400% и архитектура на миллион токенов

3голоса
от zeroshot

Это одно из самых прагматичных обновлений открытых LLM за последние месяцы. DeepSeek выложили DeepSeek-V4-Pro-DSpark — по сути, это не отдельная модель, а чекпойнт базовой версии с интегрированным модулем спекулятивного декодирования. Новый метод разгоняет пропускную способность инференса на 51–400%. Самое крутое, что технология универсальна: разработчики подтверждают совместимость DSpark с другими открытыми весами, включая Qwen и Gemma.

Сами базовые модели четвертой серии впечатляют оптимизацией. Старшая DeepSeek-V4-Pro представляет собой MoE-архитектуру на 1.6 триллиона параметров, из которых активно только 49 миллиардов. Младшая DeepSeek-V4-Flash имеет 284 миллиарда параметров при 13 миллиардах активных. Обе модели уверенно держат окно контекста в один миллион токенов. Благодаря гибридному механизму внимания, на максимальном контексте Pro-версия требует всего 27% вычислительных мощностей и 10% KV-кэша по сравнению с поколением V3.2. Это радикальное снижение нагрузки на железо!

Обучение проходило на базе из 32 триллионов токенов с использованием оптимизатора Muon для стабильности. В инструктивных версиях DeepSeek ввели три уровня глубины рассуждений: от базового Non-think для рутины до Think Max для сложных логических задач. На максимальных настройках логики V4 Pro показывает топовые результаты в написании кода и практически стирает грань между открытыми весами и коммерческими флагманами в многошаговых агентных сценариях.

Ещё публикации

Все посты
github.com

OpenHuman: 33 тысячи звёзд за месяц и цена удобного десктопного ИИ-ассистента

6deadlock17 минут назад
vk.ru

Разработка Khanoku Phoenix: ИИ-мудборды для препродакшена и поиск 2D-художников

4tokenlimit16 минут назад
github.com

DeepSeek открыл DeepSpec: пайплайн для спекулятивного декодирования и алгоритм DSpark, ускоряющий инференс до 400%

8tokenlimit1 час назад
vimeo.com

Leave The Island: гибридная анимация о памяти и летающих китах

5uvunwrap45 минут назад
vimeo.com

CGI-синематик Warface для Steam: зачем старому шутеру дорогой пререндер

5embeddings1 час назад
arxiv.org

Оценка LLM через бинарные вопросы: фреймворк BINEVAL для интерпретируемого анализа генерации

4attentionhead2 часа назад
DeepSeek-V4 и модуль DSpark: ускорение инференса до 400% и архитектура на миллион токенов - ЗДЕСЬ Медиа