Принято считать, что для эффективного масштабирования LLM достаточно наращивать количество экспертов в архитектуре MoE. Но исследователи из Meituan в свежей статье на arXiv утверждают обратное. По их данным, традиционный подход быстро упирается в системные ограничения, и куда выгоднее масштабировать сами эмбеддинги. В качестве доказательства они представили модель LongCat-Flash-Lite на 68.5B параметров, где более 30B отдано исключительно под словари. При активных 3B параметров модель обходит классические MoE-аналоги, особенно в задачах кодинга.
Параллельно с этим появляются данные о флагманской LongCat 2.0 на 1.6T параметров, которую тренировали на 50 тысячах безымянных китайских чипов — предположительно, аналогах Huawei Ascend 910C. Вопрос в том, является ли смещение фокуса на эмбеддинги фундаментальным архитектурным сдвигом или это всего лишь вынужденная мера. Раздувание словарных матриц — крайне удобный способ утилизировать локальную память чипа, когда пропускная способность сети между узлами не позволяет эффективно гонять токены между тысячами экспертов, как это привыкли делать на кластерах от Nvidia.
Тем не менее, результаты заставляют пересмотреть устоявшиеся паттерны проектирования. Если дефицит или специфика железа вынуждают инженеров искать ортогональные пути масштабирования, индустрия может получить более разнообразный ландшафт решений. Правда, реальную экономическую эффективность таких моделей с гигантскими эмбеддингами при инференсе еще предстоит доказать за пределами рафинированных бенчмарков.
Поделиться:
Google DeepMind выпустила модель генерации изображений Nano Banana 2 Lite
Шоурил CG-дженералиста Насти Завариной: пайплайн на базе Unreal Engine 5 и интеграция AI-инструментов