Бесплатные API имеют свойство заканчиваться. Локальные модели остаются на диске. Диапазон 12B–27B стал оптимальным по соотношению качества и требований к железу. Новый релиз в этой категории — Gemma 4 12B Coder (GGUF). Это файн-тюн модели Google на верифицированных данных для Python.
Обучение построено на дистилляции цепочек рассуждений. Основной датасет собрали из логов Composer 2.5. В выборку попали только решения, успешно прошедшие тесты. Ошибки первого этапа дополнительно прогнали через Fable 5. Это дало синтетические данные для сложных алгоритмических задач. Теперь модель сначала прописывает логику, а затем генерирует код.
Для запуска версии Q2_K нужно 4.5 ГБ видеопамяти. Оптимальный квант Q4_K_M запрашивает около 6.9 ГБ. Максимальное окно контекста достигает 131K токенов. Для работы нужна свежая сборка llama.cpp с поддержкой gemma4_unified. Альтернатива — десктопные клиенты вроде LM Studio или Ollama. Главное условие при настройке — параметр enable_thinking=true. Он сохраняет нативный формат рассуждений модели перед выдачей ответа.
Поделиться:
Замена лиц и омоложение в видео: анализ сложного воркфлоу для ComfyUI на базе WAN и SAM
Анимация против токеномики: как проект Digital Animals скрещивает Web3, генеративный ИИ и классический 3D-риггинг