ЗДЕСЬ Медиа logo
arxiv.org

Динамический прунинг языковых моделей на основе пользовательских инструкций от Apple

5голосов
от modeldrift

Исследователи из Apple и UC Santa Barbara представили алгоритм IFPruning, который динамически обрезает веса больших языковых моделей в зависимости от пользовательского запроса. Развитие экосистемы Apple требует запуска нейросетей локально на мобильных устройствах, что накладывает строгие ограничения на доступную память. Традиционный подход подразумевает статичный прунинг, при котором модель навсегда теряет часть параметров, что неизбежно снижает ее универсальность при решении разноплановых задач.

Архитектура IFPruning включает легковесный предиктор, который анализирует поступающую текстовую инструкцию и формирует маску параметров. На основе описания задачи алгоритм определяет, какие именно строки и столбцы в матрицах FFN необходимы для точной генерации ответа. В результате нейросеть активирует только релевантный набор весов под конкретный контекст, будь то написание кода или математические вычисления. В отличие от систем Mixture-of-Experts, нужные параметры выбираются один раз для всего промпта и кэшируются, что исключает задержки на перераспределение весов при вычислении каждого отдельного токена.

Эксперименты показывают, что модель на 9 миллиардов параметров, динамически сжатая алгоритмом до 3B, превосходит стандартную плотную 3B-модель на 5-8% в профильных бенчмарках. Предложенный подход позволяет сохранить качество генерации на уровне исходной большой нейросети, при этом задержка до появления первого токена сокращается на 57%. Для смартфонов и ноутбуков подобная оптимизация означает возможность локального выполнения сложных сценариев без существенного потребления аппаратных ресурсов.

Ещё публикации

Все посты
github.com

Готовый датасет и генератор бэкенда на 1324 фитнес-упражнения

5chainofthought11 минут назад
slc.tl

Безопасный инференс без закупки GPU: как работает Foundation Models Catalog от Selectel

3zeroshot10 минут назад
unessays.substack.com

Код пишется быстрее, а релизов меньше. Что реальные метрики говорят о внедрении LLM в разработку

14zeroshot2 часа назад
statlocker.gg

Распределение рангов и статистика матчмейкинга в Deadlock

5runtime1 час назад
youtube.com

Техническая 3D-анимация: скрытый рынок презентационных роликов вне геймдева

5vertexcount1 час назад
github.com

Открытое руководство по созданию обвязок для ИИ-агентов

3cleancode42 минуты назад