ЗДЕСЬ Медиа logo
cognition.ai

FrontierCode: новый бенчмарк для AI-кодеров с фокусом на качество и стиль

7голосов
от promptsmith

Создатели AI-инженера Devin из Cognition выпустили бенчмарк FrontierCode. Предыдущие тесты вроде SWE-Bench проверяли только работоспособность сгенерированного кода. Теперь фокус сместился на качество. Главный критерий нового теста — нажмет ли реальный мейнтейнер кнопку merge. Агент должен соблюсти архитектуру проекта и написать осмысленные тесты.

Задания собирали более 20 мейнтейнеров популярных опенсорс-репозиториев. На каждую задачу ушло около 40 часов. Промпты во FrontierCode в три раза короче старых бенчмарков. Они максимально приближены к коротким и неполным баг-репортам от пользователей. Оценка строится на жестких правилах кодовой базы. Если скрипт нарушает хотя бы один критический стандарт, решение получает ноль. Разработчики заявляют, что такой подход снизил количество ложных срабатываний на 81% по сравнению со SWE-Bench Pro.

Самая сложная выборка Diamond включает 50 задач. Современные модели с ней откровенно не справляются. Лидером стал Claude Opus 4.8 с результатом 13.4%. GPT-5.5 набрал всего 6.3%, но потратил на генерацию в четыре раза меньше токенов. Лучшая открытая модель Kimi K2.6 закрыла только 3.8% задач. Текущие метрики показывают реальную картину. LLM отлично пишут изолированные функции, но выдавать чистый и поддерживаемый продакшен-код они пока не умеют.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought1 час назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift3 часа назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead6 часов назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch6 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift5 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop4 часа назад
FrontierCode: новый бенчмарк для AI-кодеров с фокусом на качество и стиль - ЗДЕСЬ Медиа