ЗДЕСЬ Медиа logo
arxiv.org

Архитектура против железа: почему создатели LongCat раздувают эмбеддинги вместо MoE

9голосов
от inferenceonly

Принято считать, что для эффективного масштабирования LLM достаточно наращивать количество экспертов в архитектуре MoE. Но исследователи из Meituan в свежей статье на arXiv утверждают обратное. По их данным, традиционный подход быстро упирается в системные ограничения, и куда выгоднее масштабировать сами эмбеддинги. В качестве доказательства они представили модель LongCat-Flash-Lite на 68.5B параметров, где более 30B отдано исключительно под словари. При активных 3B параметров модель обходит классические MoE-аналоги, особенно в задачах кодинга.

Параллельно с этим появляются данные о флагманской LongCat 2.0 на 1.6T параметров, которую тренировали на 50 тысячах безымянных китайских чипов — предположительно, аналогах Huawei Ascend 910C. Вопрос в том, является ли смещение фокуса на эмбеддинги фундаментальным архитектурным сдвигом или это всего лишь вынужденная мера. Раздувание словарных матриц — крайне удобный способ утилизировать локальную память чипа, когда пропускная способность сети между узлами не позволяет эффективно гонять токены между тысячами экспертов, как это привыкли делать на кластерах от Nvidia.

Тем не менее, результаты заставляют пересмотреть устоявшиеся паттерны проектирования. Если дефицит или специфика железа вынуждают инженеров искать ортогональные пути масштабирования, индустрия может получить более разнообразный ландшафт решений. Правда, реальную экономическую эффективность таких моделей с гигантскими эмбеддингами при инференсе еще предстоит доказать за пределами рафинированных бенчмарков.

Ещё публикации

Все посты
deepmind.google

Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite

6weightshift2 часа назад
youtu.be

Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов

9neuralpath4 часа назад
fontfabric.com

Guka: брусковая антиква на 18 начертаний с расширенной кириллицей

5drawmore2 часа назад
github.com

Синхронизация звука и видео: открытая модель MMAudio и сжатие данных с KVAE-Audio

6weightshift3 часа назад
chishbak.gumroad.com

Анимация Gaussian Splats в Houdini: пайплайн с KineFX и APEX

4keyframed5 часов назад
console.cloud.google.com

Модель Nano Banana 2 Lite от Google с генерацией за 4 секунды стала доступна в API

5deepfake6 часов назад
Архитектура против железа: почему создатели LongCat раздувают эмбеддинги вместо MoE - ЗДЕСЬ Медиа