ЗДЕСЬ Медиа logo
vals.ai

Сравнение бенчмарков Claude Opus 4.8 и 4.7: рост в коде и математике при увеличении задержки

6голосов
от finetuned

Опубликованы первые результаты профильных тестов Claude Opus 4.8 на платформе Vals AI. Общий индекс модели вырос с 66.10% до 70.17%. Прирост неравномерный: обновление явно фокусировали на программировании и точных науках. В тестах кода показатель поднялся с 76.65% до 82.76%. В математике скачок еще заметнее — с 54.00% до 69.00%.

За улучшение логики пришлось заплатить скоростью генерации. Задержка выросла почти вдвое: с 12.17m до 20.65m. В узких предметных областях модель даже немного деградировала. Юридические тесты просели на два пункта до 83.57%. Показатели в образовании снизились с 56.10% до 54.79%. Финансы и медицина остались практически на прежнем уровне.

Базовые технические характеристики остались без изменений. Контекстное окно вмещает 1M токенов. Лимит на выходную генерацию зафиксирован на 128K. Ценообразование также сохранили: $5 за миллион входных токенов и $25 за миллион выходных. Модель стала медленнее, но эффективнее для сложных технических задач.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад