Тяжелые локальные нейросети пробили лимит бюджетного железа — MoE-модель на 26 миллиардов параметров теперь полноценно работает на обычных видеокартах с 8 ГБ VRAM. Это стало возможным благодаря неочевидной комбинации архитектуры Google DeepMind и нового подхода к квантованию от команды Unsloth.
Дело в том, что Gemma 4 26B A4B использует архитектуру Mixture-of-Experts. Из общих 25.2 миллиардов параметров при обработке промпта активны всего 3.8 миллиарда. Модель выдает качество рассуждений большой нейросети, но работает со скоростью компактной 4B. Команда Unsloth применила к ней Quantization-Aware Training (QAT), упаковав веса в 4-битный формат GGUF. Эта техника позволяет радикально срезать требования к памяти, сохраняя при этом точность оригинальных bfloat16-весов.
Модель мультимодальна, понимает текст и изображения, а окно контекста расширено до 256 тысяч токенов. Чтобы вся эта конструкция не захлебнулась в памяти на длинных задачах, под капотом работает гибридное внимание: локальное скользящее окно на ранних этапах и полное глобальное внимание на финальном слое. Фактически, разработчики получили мощный движок для локальных агентов и написания кода, который влезает в потребительский ноутбук.
Поделиться:
taste-skill: можно ли запрограммировать хороший вкус для AI-агентов
Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust