MiniMax-M3: открытая MoE-модель на 428B параметров с новым механизмом Sparse Attention

Это один из самых технически изящных релизов среди открытых мультимодальных моделей. Команда MiniMax выкатила MiniMax-M3 — массивную Mixture of Experts архитектуру. При общем объеме в 428 миллиардов параметров модель активирует всего 23B при генерации каждого токена. Такая асимметрия делает ее весьма компактной по меркам прямых конкурентов, позволяя запускать тяжелую мультимодальную логику без колоссальных затрат на железо.

Главная техническая деталь модели — полностью переработанный механизм внимания. Разработчики представили собственную реализацию MiniMax Sparse Attention (MSA). На больших окнах контекста этот подход показывает себя заметно эффективнее, чем стандартный Grouped Query Attention (GQA). Алгоритм гораздо лучше держит фокус при анализе объемных текстовых массивов или видеопотоков, снижая квадратичную вычислительную сложность.

Веса опубликованы под открытой лицензией minimax-community, а сама система уже встроена в современный стек разработки. Запустить инференс можно через базовую библиотеку transformers, а для высоконагруженных задач подготовлены конфигурации под быстрые серверы vLLM и SGLang. Тот самый случай, когда лаборатория не просто опубликовала гигантскую матрицу чисел, а предложила оптимизированную альтернативу неповоротливым закрытым API!

MiniMax-M3: открытая MoE-модель на 428B параметров с новым механизмом Sparse Attention

Ещё публикации

MiniMax-M3: открытая MoE-модель на 428B параметров с новым механизмом Sparse Attention

Ещё публикации