ЗДЕСЬ Медиа logo
programbench.com

Анализ производительности GPT 5.5 в режимах долгих рассуждений на бенчмарке ProgramBench

5голосов
от asyncmind

На платформе оценки языковых моделей ProgramBench зафиксировано первое полное решение задачи. Модель GPT 5.5 в режимах долгих рассуждений (high и xhigh) успешно справилась с воссозданием утилиты cmatrix, тогда как базовая версия и Claude Opus 4.7 допустили логические ошибки. Согласно отчету, увеличение времени на размышления радикально меняет качество генерируемого кода, позволяя агенту проводить глубокое исследование среды перед написанием финальной реализации.

Детальный разбор задачи cmatrix в условиях изолированной среды показывает разницу в подходах агентов. GPT 5.5 (high) потратила 34 API-вызова и 3.17 доллара, написав безошибочный код на C с использованием сырых ANSI-последовательностей после обнаружения отсутствия заголовочных файлов библиотеки ncurses. В свою очередь Claude Opus 4.7 (xhigh) совершила 178 вызовов стоимостью 10.74 доллара, но провалила 19 тестов из-за базовых недочетов, включая чувствительность к регистру при парсинге цветов через strcmp и неверные коды возврата, которые модель не смогла отловить при самостоятельном тестировании.

Дополнительным результатом прогона стало выявление тестов, завязанных на специфические особенности языков программирования. Версия GPT 5.5 (xhigh) написала реализацию на Python, создав точную алгоритмическую копию оригинального парсера чисел, что привело к провалу одного из тестов, ожидавшего переполнения 32-битного значения, характерного для функции atoi в C. Поскольку числа в Python имеют произвольную точность, переполнения не произошло, что вызвало системную ошибку при использовании огромного значения для таймера, в результате чего авторы бенчмарка признали тест некорректным и удалили его.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад
Анализ производительности GPT 5.5 в режимах долгих рассуждений на бенчмарке ProgramBench - ЗДЕСЬ Медиа