ЗДЕСЬ Медиа logo
github.com

Ошибки тарификации в DeepSWE и переход к масштабным проектам в бенчмарке SWE-Marathon

5голосов
от hotfix

Исследователи выявили критические ошибки в методологии бенчмарка DeepSWE при оценке модели deepseek-v4-pro. Заявленные результаты показывали низкий процент успешных решений и среднюю стоимость в $4.22 за задачу, однако независимая проверка показала успешное выполнение ранее проваленных тестов при реальных затратах около $0.86. Искажение метрик возникло из-за того, что система тарифицировала кешированные токены по полной стоимости, игнорируя скидку провайдера в 99.2%, а настройки приватности OpenRouter по умолчанию блокировали доступ к API, что приводило к циклам ошибок вместо генерации кода.

Параллельно с выявлением технических проблем в существующих системах тестирования меняется масштаб проверочных заданий. Бенчмарк SWE-Marathon предлагает 20 объемных задач, требующих выполнения полноценных проектов вместо точечного исправления багов. В тестовый набор входят задания вроде переписывания компилятора C на Rust или создания клона Excel, на реализацию которых в стандартном цикле разработки уходят сотни человеко-часов.

Оба прецедента демонстрируют уязвимость текущих методов оценки языковых моделей. В одном случае инструменты тестирования не справляются с базовым подсчетом стоимости и маршрутизацией запросов, формируя искаженные выводы об эффективности систем. При этом сами бенчмарки усложняются до уровня, на котором надежная автоматическая верификация многоступенчатого процесса разработки требует отдельной сложной инфраструктуры.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад