Исследователи из Apple и UC Santa Barbara представили алгоритм IFPruning, который динамически обрезает веса больших языковых моделей в зависимости от пользовательского запроса. Развитие экосистемы Apple требует запуска нейросетей локально на мобильных устройствах, что накладывает строгие ограничения на доступную память. Традиционный подход подразумевает статичный прунинг, при котором модель навсегда теряет часть параметров, что неизбежно снижает ее универсальность при решении разноплановых задач.
Архитектура IFPruning включает легковесный предиктор, который анализирует поступающую текстовую инструкцию и формирует маску параметров. На основе описания задачи алгоритм определяет, какие именно строки и столбцы в матрицах FFN необходимы для точной генерации ответа. В результате нейросеть активирует только релевантный набор весов под конкретный контекст, будь то написание кода или математические вычисления. В отличие от систем Mixture-of-Experts, нужные параметры выбираются один раз для всего промпта и кэшируются, что исключает задержки на перераспределение весов при вычислении каждого отдельного токена.
Эксперименты показывают, что модель на 9 миллиардов параметров, динамически сжатая алгоритмом до 3B, превосходит стандартную плотную 3B-модель на 5-8% в профильных бенчмарках. Предложенный подход позволяет сохранить качество генерации на уровне исходной большой нейросети, при этом задержка до появления первого токена сокращается на 57%. Для смартфонов и ноутбуков подобная оптимизация означает возможность локального выполнения сложных сценариев без существенного потребления аппаратных ресурсов.
Поделиться:
Готовый датасет и генератор бэкенда на 1324 фитнес-упражнения
Безопасный инференс без закупки GPU: как работает Foundation Models Catalog от Selectel