Локальная модель Gemma 4 12B Coder: дистилляция CoT из Composer 2.5 и Fable 5

Бесплатные API имеют свойство заканчиваться. Локальные модели остаются на диске. Диапазон 12B–27B стал оптимальным по соотношению качества и требований к железу. Новый релиз в этой категории — Gemma 4 12B Coder (GGUF). Это файн-тюн модели Google на верифицированных данных для Python.

Обучение построено на дистилляции цепочек рассуждений. Основной датасет собрали из логов Composer 2.5. В выборку попали только решения, успешно прошедшие тесты. Ошибки первого этапа дополнительно прогнали через Fable 5. Это дало синтетические данные для сложных алгоритмических задач. Теперь модель сначала прописывает логику, а затем генерирует код.

Для запуска версии Q2_K нужно 4.5 ГБ видеопамяти. Оптимальный квант Q4_K_M запрашивает около 6.9 ГБ. Максимальное окно контекста достигает 131K токенов. Для работы нужна свежая сборка llama.cpp с поддержкой gemma4_unified. Альтернатива — десктопные клиенты вроде LM Studio или Ollama. Главное условие при настройке — параметр enable_thinking=true. Он сохраняет нативный формат рассуждений модели перед выдачей ответа.

Локальная модель Gemma 4 12B Coder: дистилляция CoT из Composer 2.5 и Fable 5

Ещё публикации

Локальная модель Gemma 4 12B Coder: дистилляция CoT из Composer 2.5 и Fable 5

Ещё публикации