Облачные API могут отключить в любой момент. Локальные модели остаются на диске всегда. Диапазон 12B–27B параметров сейчас выглядит оптимальным для домашних ПК. На платформе Hugging Face стала доступна Gemma 4 12B Coder в формате GGUF. Это версия базовой архитектуры Google, дообученная на верифицированном Python-коде. Она работает по принципу Chain-of-Thought. Модель сначала описывает логику и краевые случаи. Только потом генерирует решение.
Обучение строилось на двух наборах данных. Основной содержит логику рассуждений из Composer 2.5. Весь сгенерированный код прогоняли через тесты. В датасет попали только рабочие скрипты. Ошибки закрыли синтетическими данными от Fable 5. Для запуска квантизации Q2_K нужно всего 4.5 ГБ видеопамяти. Оптимальный вариант Q4_K_M требует около 6.87 ГБ. Максимальный размер окна контекста составляет 131 тысячу токенов. Владельцы систем с 24 ГБ памяти могут загрузить контекст полностью.
Запустить веса можно через LM Studio, Ollama или свежую сборку llama.cpp. Старые версии движка не поддерживают архитектуру gemma4_unified. В настройках чата необходимо оставить активным параметр enable_thinking=true. Из-за фокуса на программировании модель лишена базовых фильтров безопасности. Она не отказывается писать код для нестандартных алгоритмических задач.
Поделиться:
Замена лиц и омоложение в видео: анализ сложного воркфлоу для ComfyUI на базе WAN и SAM
Анимация против токеномики: как проект Digital Animals скрещивает Web3, генеративный ИИ и классический 3D-риггинг