Meituan открыла исходный код LongCat-2.0. Это MoE-модель на 1,6 трлн параметров с 48 млрд активных весов на токен. Главная техническая особенность релиза — полный отказ от GPU Nvidia. Претрейн на 35 трлн токенов проходил на кластере из 50 тысяч китайских AI ASIC. По архитектуре они близки к чипам Huawei Ascend 910C. Ранее таких масштабов достигали только на железе Nvidia и TPU от Google.
Для обработки длинных запросов инженеры переработали механизм внимания из DeepSeek. Новая реализация LongCat Sparse Attention решает проблему узкого места в индексаторе. Этого добились за счет потокового чтения из памяти и иерархического скоринга. Модель целенаправленно тренировали на массиве данных с контекстом в 1 млн токенов. Эффективность параметров повысили через модуль N-gram Embedding на 135 млрд весов. Он расширяет пространство эмбеддингов почти в 100 раз. Это ощутимо снижает I/O-нагрузку на память при декодировании больших батчей.
Аппаратные ограничения китайских ASIC потребовали сложных решений для распределения нагрузки. Памяти на одном таком чипе меньше, чем в стандартном ускорителе H800. Поэтому разработчики применили сложный 6D-параллелизм. К стандартным методам шардирования добавили алгоритм EMBP для распараллеливания N-gram вычислений. Мониторинг инфраструктуры позволил провести миллионы часов вычислений без единого отката чекпоинта. На выходе получилась модель для сложных задач программирования. Она нативно поддерживает агентные фреймворки вроде Claude Code и OpenClaw для автономной работы с репозиториями.
Поделиться:
Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite
Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов