Все привыкли считать, что Apple строит полностью независимую экосистему, где нейросети работают исключительно локально и магическим образом не трогают данные. Компания выкатила третье поколение Apple Foundation Models, и под капотом всё оказалось куда прозаичнее. Из пяти представленных моделей только две запускаются на устройстве, а для тяжелых вычислений купертиновцам пришлось пойти на глубокую интеграцию с инфраструктурой конкурентов.
Как запихнуть 20-миллиардную модель в телефон с жестко ограниченной оперативной памятью? Разработчики пошли на хитрость с флагманской локальной AFM 3 Core Advanced. Вместо загрузки всей сети в DRAM, массив весов хранится в относительно медленной флеш-памяти NAND. Модель использует разреженную архитектуру на базе Instruction-Following Pruning. В зависимости от запроса активируется всего от 1 до 4 миллиардов параметров, а нужные куски кода подгружаются в оперативку на лету. Инженерное решение выглядит изящно, но вопрос в том, как постоянный свопинг тяжелых весов скажется на износе накопителя при активном использовании обновленной Siri.
Правда, самое интересное скрыто на стороне сервера. Для сложных агентских сценариев, требующих длинного контекста, используется AFM 3 Cloud Pro. Здесь Apple пришлось развернуть свои защищенные анклавы Private Cloud Compute на базе графических ускорителей NVIDIA прямо внутри Google Cloud. Получается, что базовой AFM 3 Core на 3 миллиарда параметров хватает лишь на простейшие локальные команды. Любая серьезная генерация текста или работа с изображениями через ADM 3 Cloud все равно уходит во внешние дата-центры. Приватность пользовательских запросов действительно защищена криптографически, но полная независимость купертиновского ИИ от облачных гигантов пока остается скорее красивой идеей, чем технической реальностью.
Поделиться:
Magnific интегрировал свои ИИ-инструменты в After Effects, Premiere Pro и DaVinci Resolve
Код пишется быстрее, а релизов меньше. Что реальные метрики говорят о внедрении LLM в разработку