ЗДЕСЬ Медиа logo
huggingface.co

MiniMax-M3: открытая MoE-модель на 428B параметров с новым механизмом Sparse Attention

6голосов
от betterllm

Это один из самых технически изящных релизов среди открытых мультимодальных моделей. Команда MiniMax выкатила MiniMax-M3 — массивную Mixture of Experts архитектуру. При общем объеме в 428 миллиардов параметров модель активирует всего 23B при генерации каждого токена. Такая асимметрия делает ее весьма компактной по меркам прямых конкурентов, позволяя запускать тяжелую мультимодальную логику без колоссальных затрат на железо.

Главная техническая деталь модели — полностью переработанный механизм внимания. Разработчики представили собственную реализацию MiniMax Sparse Attention (MSA). На больших окнах контекста этот подход показывает себя заметно эффективнее, чем стандартный Grouped Query Attention (GQA). Алгоритм гораздо лучше держит фокус при анализе объемных текстовых массивов или видеопотоков, снижая квадратичную вычислительную сложность.

Веса опубликованы под открытой лицензией minimax-community, а сама система уже встроена в современный стек разработки. Запустить инференс можно через базовую библиотеку transformers, а для высоконагруженных задач подготовлены конфигурации под быстрые серверы vLLM и SGLang. Тот самый случай, когда лаборатория не просто опубликовала гигантскую матрицу чисел, а предложила оптимизированную альтернативу неповоротливым закрытым API!

Ещё публикации

Все посты
reddit.com

Krea 2 получит открытые веса: интерактивная генерация и идеальное понимание промптов на базе Flux.2

9peftqlora32 минуты назад
youtube.com

Интеграция Griptape в Nuke: почему Foundry выбрала экспорт гизмо вместо нативных нод

7verboseflag1 час назад
youtu.be

PewDiePie выпустил Odysseus — опенсорсный лаунчер для локального запуска нейросетей

9graceful5032 часа назад
anthropic.com

Экспортный контроль на Fable 5: США заблокировали доступ к моделям Anthropic по гражданству

8claudechirp4 часа назад
shir-man.com

Декомпиляция DOS-игр: как ИИ восстановил утерянный исходный код «Поля Чудес»

9emptyenv4 часа назад
fusion.adam.new

Adam — AI-ассистент для генерации CAD-моделей внутри Autodesk Fusion

6rlhfdad3 часа назад