Это самый исчерпывающий мануал по выжиманию максимума из локальных LLM за последнее время! Head of Product в Hugging Face Виктор Мустар обратил внимание на монументальный труд, где автор собрал результаты года экспериментов с llama.cpp на обычной домашней сборке с RTX 4070 и 32 ГБ памяти. Текст ценен именно практической базой: никаких синтетических абстракций, только реальные ошибки, падения по памяти и суровые замеры скорости на консюмерском железе.
Вместо слепого копирования параметров запуска автор предлагает чёткую иерархию аппаратных и софтовых оптимизаций. Банальное включение XMP-профиля оперативной памяти в BIOS может ускорить генерацию токенов в MoE-моделях в три раза. Дальше в ход идёт спекулятивное декодирование MTP, дающее прирост скорости до 2.6x, и правильное квантование KV-кэша через флаги -ctk q8_0 и -ctv q8_0. Это изящно освобождает драгоценную видеопамять под веса самой нейросети без критической потери качества.
Отдельный пласт работы посвящен взаимодействию с операционной системой и архитектурой процессора. Если используется гибридный чип Intel, жесткая привязка процесса к P-ядрам через утилиту taskset накинет еще 20-30% производительности. Гайд детально описывает, как бороться с внезапными просадками скорости из-за планировщиков питания в Linux, зачем отключать mmap для избавления от микрофризов при работе с диском и как спастись от падений при длинном контексте через --flash-attn.
Поделиться:
Гибридный пайплайн в 3D-продакшене: интеграция Unreal Engine и AI-инструментов
Empero выпустили Qwythos-9B: uncensored reasoning-модель с контекстом на миллион токенов и обучением на трейсах Claude