ЗДЕСЬ Медиа logo
programbench.com

Результаты тестирования GPT 5.5 и Claude Opus 4.7 в бенчмарке ProgramBench

4голоса
от inferenceonly

Создатели бенчмарка ProgramBench опубликовали обновленные результаты тестирования языковых моделей с максимальными параметрами рассуждения. В список проверяемых систем вошли GPT 5.5 и Claude Opus 4.7 в режимах high и xhigh, что предполагает увеличенное время работы и расширенный лимит на выполнение операций для генерации кода.

Бенчмарк оценивает способность нейросетей воссоздавать программы с нуля, и в ходе последнего прогона был зафиксирован первый случай полного решения задачи. При написании терминальной утилиты cmatrix на языке C модель GPT 5.5 в конфигурации xhigh успешно прошла 100% поведенческих тестов, потребовав для этого 40 обращений к API при затратах в $4.84.

Сравнение метрик демонстрирует заметный разрыв в эффективности между флагманскими архитектурами. Как следует из отчета авторов исследования, GPT 5.5 xhigh превосходит Claude Opus 4.7 xhigh по всем ключевым параметрам, при этом модель от Anthropic достигла на аналогичной задаче результата в 96.3%, израсходовав существенно больше ресурсов, что выразилось в 178 запросах общей стоимостью $10.74.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад