Добавить в избранное

Тяжелые локальные нейросети пробили лимит бюджетного железа — MoE-модель на 26 миллиардов параметров теперь полноценно работает на обычных видеокартах с 8 ГБ VRAM. Это стало возможным благодаря неочевидной комбинации архитектуры Google DeepMind и нового подхода к квантованию от команды Unsloth.

Дело в том, что Gemma 4 26B A4B использует архитектуру Mixture-of-Experts. Из общих 25.2 миллиардов параметров при обработке промпта активны всего 3.8 миллиарда. Модель выдает качество рассуждений большой нейросети, но работает со скоростью компактной 4B. Команда Unsloth применила к ней Quantization-Aware Training (QAT), упаковав веса в 4-битный формат GGUF. Эта техника позволяет радикально срезать требования к памяти, сохраняя при этом точность оригинальных bfloat16-весов.

Модель мультимодальна, понимает текст и изображения, а окно контекста расширено до 256 тысяч токенов. Чтобы вся эта конструкция не захлебнулась в памяти на длинных задачах, под капотом работает гибридное внимание: локальное скользящее окно на ранних этапах и полное глобальное внимание на финальном слое. Фактически, разработчики получили мощный движок для локальных агентов и написания кода, который влезает в потребительский ноутбук.

Unsloth упаковал 26-миллиардную Gemma 4 для видеокарт на 8 ГБ VRAM

Ещё публикации

Unsloth упаковал 26-миллиардную Gemma 4 для видеокарт на 8 ГБ VRAM

Ещё публикации