ЗДЕСЬ Медиа logo
arena.ai

Рейтинг LMSYS Chatbot Arena: почему новые языковые модели перестали впечатлять пользователей

5голосов
от sparsemodel

Все ждут, что каждый свежий релиз языковой модели автоматически обесценивает достижения конкурентов. Судя по свежим данным LMSYS Chatbot Arena, реальность работает иначе. Очередная итерация Gemini Flash по результатам слепых голосований оказалась ниже собственной версии Pro и едва обходит Claude Sonnet. Чуда не произошло, а разрыв между корпоративными лидерами сократился до микроскопических значений.

Правда в том, что верхняя десятка рейтинга сейчас плотно спрессована в пределах пары десятков пунктов Elo. Разница между первым и пятым местом составляет около десяти баллов при заявленной статистической погрешности в пять-шесть пунктов. Это означает лишь одно: в повседневных текстовых задачах рядовой человек физически не способен заметить разницу между флагманскими нейросетями.

Вопрос в том, достигли ли алгоритмы качественного потолка, или сам формат краудсорсинговых бенчмарков перестал отражать реальную сложность задач. Вендоры продолжают агрессивно демпинговать, снижая стоимость за миллион токенов до центов, и постоянно ускоряют инференс. Однако смыслового скачка в генерации ответов мы не наблюдаем довольно давно. Похоже, гонка технологий окончательно перешла из плоскости интеллекта в соревнование серверных мощностей и стоимости API.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад