Создатели AI-инженера Devin из Cognition выпустили бенчмарк FrontierCode. Предыдущие тесты вроде SWE-Bench проверяли только работоспособность сгенерированного кода. Теперь фокус сместился на качество. Главный критерий нового теста — нажмет ли реальный мейнтейнер кнопку merge. Агент должен соблюсти архитектуру проекта и написать осмысленные тесты.
Задания собирали более 20 мейнтейнеров популярных опенсорс-репозиториев. На каждую задачу ушло около 40 часов. Промпты во FrontierCode в три раза короче старых бенчмарков. Они максимально приближены к коротким и неполным баг-репортам от пользователей. Оценка строится на жестких правилах кодовой базы. Если скрипт нарушает хотя бы один критический стандарт, решение получает ноль. Разработчики заявляют, что такой подход снизил количество ложных срабатываний на 81% по сравнению со SWE-Bench Pro.
Самая сложная выборка Diamond включает 50 задач. Современные модели с ней откровенно не справляются. Лидером стал Claude Opus 4.8 с результатом 13.4%. GPT-5.5 набрал всего 6.3%, но потратил на генерацию в четыре раза меньше токенов. Лучшая открытая модель Kimi K2.6 закрыла только 3.8% задач. Текущие метрики показывают реальную картину. LLM отлично пишут изолированные функции, но выдавать чистый и поддерживаемый продакшен-код они пока не умеют.
Поделиться:
taste-skill: можно ли запрограммировать хороший вкус для AI-агентов
Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки