LongCat-2.0: первая языковая модель на 1,6 трлн параметров, обученная без чипов Nvidia

Китайская компания Meituan анонсировала LongCat-2.0. Это первая масштабная языковая модель, натренированная без использования ускорителей Nvidia или Google TPU. Обучение проходило на кластере из 50 тысяч кастомных ASIC-чипов. По характеристикам эти вычислительные узлы напоминают архитектуру Huawei Ascend 910C.

Модель построена на базе Mixture of Experts. Общий объем параметров составляет 1,6 триллиона. При генерации каждого токена активируется около 48 миллиардов. Претрейн охватил массив данных из 35 триллионов токенов. Разработчики заявляют об отсутствии аппаратных сбоев и скачков функции потерь за весь цикл обучения. Ранее стабильность на таких масштабах демонстрировали только традиционные GPU-кластеры.

Отдельный фокус направлен на работу с длинным контекстом. Сотни миллиардов токенов в обучающей выборке имели размер окна в 1 миллион токенов. Для обработки таких структур внедрен механизм LongCat Sparse Attention. Это повышает качество выполнения агентных задач и написания кода. Релиз открытых весов ожидается в ближайшее время.

LongCat-2.0: первая языковая модель на 1,6 трлн параметров, обученная без чипов Nvidia

Ещё публикации

LongCat-2.0: первая языковая модель на 1,6 трлн параметров, обученная без чипов Nvidia

Ещё публикации