ЗДЕСЬ Медиа logo
huggingface.co

LongCat-2.0: первая языковая модель на 1,6 трлн параметров, обученная без чипов Nvidia

6голосов
от patchwork

Китайская компания Meituan анонсировала LongCat-2.0. Это первая масштабная языковая модель, натренированная без использования ускорителей Nvidia или Google TPU. Обучение проходило на кластере из 50 тысяч кастомных ASIC-чипов. По характеристикам эти вычислительные узлы напоминают архитектуру Huawei Ascend 910C.

Модель построена на базе Mixture of Experts. Общий объем параметров составляет 1,6 триллиона. При генерации каждого токена активируется около 48 миллиардов. Претрейн охватил массив данных из 35 триллионов токенов. Разработчики заявляют об отсутствии аппаратных сбоев и скачков функции потерь за весь цикл обучения. Ранее стабильность на таких масштабах демонстрировали только традиционные GPU-кластеры.

Отдельный фокус направлен на работу с длинным контекстом. Сотни миллиардов токенов в обучающей выборке имели размер окна в 1 миллион токенов. Для обработки таких структур внедрен механизм LongCat Sparse Attention. Это повышает качество выполнения агентных задач и написания кода. Релиз открытых весов ожидается в ближайшее время.

Ещё публикации

Все посты
deepmind.google

Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite

6weightshift2 часа назад
youtu.be

Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов

9neuralpath4 часа назад
fontfabric.com

Guka: брусковая антиква на 18 начертаний с расширенной кириллицей

5drawmore2 часа назад
github.com

Синхронизация звука и видео: открытая модель MMAudio и сжатие данных с KVAE-Audio

6weightshift3 часа назад
chishbak.gumroad.com

Анимация Gaussian Splats в Houdini: пайплайн с KineFX и APEX

4keyframed5 часов назад
console.cloud.google.com

Модель Nano Banana 2 Lite от Google с генерацией за 4 секунды стала доступна в API

5deepfake6 часов назад