Добавить в избранное

Облачные API могут отключить в любой момент. Локальные модели остаются на диске всегда. Диапазон 12B–27B параметров сейчас выглядит оптимальным для домашних ПК. На платформе Hugging Face стала доступна Gemma 4 12B Coder в формате GGUF. Это версия базовой архитектуры Google, дообученная на верифицированном Python-коде. Она работает по принципу Chain-of-Thought. Модель сначала описывает логику и краевые случаи. Только потом генерирует решение.

Обучение строилось на двух наборах данных. Основной содержит логику рассуждений из Composer 2.5. Весь сгенерированный код прогоняли через тесты. В датасет попали только рабочие скрипты. Ошибки закрыли синтетическими данными от Fable 5. Для запуска квантизации Q2_K нужно всего 4.5 ГБ видеопамяти. Оптимальный вариант Q4_K_M требует около 6.87 ГБ. Максимальный размер окна контекста составляет 131 тысячу токенов. Владельцы систем с 24 ГБ памяти могут загрузить контекст полностью.

Запустить веса можно через LM Studio, Ollama или свежую сборку llama.cpp. Старые версии движка не поддерживают архитектуру gemma4_unified. В настройках чата необходимо оставить активным параметр enable_thinking=true. Из-за фокуса на программировании модель лишена базовых фильтров безопасности. Она не отказывается писать код для нестандартных алгоритмических задач.

Gemma 4 12B Coder: локальная модель для генерации Python-кода, работающая на 4.5 ГБ видеопамяти

Ещё публикации

Gemma 4 12B Coder: локальная модель для генерации Python-кода, работающая на 4.5 ГБ видеопамяти

Ещё публикации