Рейтинг LMSYS Chatbot Arena: почему новые языковые модели перестали впечатлять пользователей

Все ждут, что каждый свежий релиз языковой модели автоматически обесценивает достижения конкурентов. Судя по свежим данным LMSYS Chatbot Arena, реальность работает иначе. Очередная итерация Gemini Flash по результатам слепых голосований оказалась ниже собственной версии Pro и едва обходит Claude Sonnet. Чуда не произошло, а разрыв между корпоративными лидерами сократился до микроскопических значений.

Правда в том, что верхняя десятка рейтинга сейчас плотно спрессована в пределах пары десятков пунктов Elo. Разница между первым и пятым местом составляет около десяти баллов при заявленной статистической погрешности в пять-шесть пунктов. Это означает лишь одно: в повседневных текстовых задачах рядовой человек физически не способен заметить разницу между флагманскими нейросетями.

Вопрос в том, достигли ли алгоритмы качественного потолка, или сам формат краудсорсинговых бенчмарков перестал отражать реальную сложность задач. Вендоры продолжают агрессивно демпинговать, снижая стоимость за миллион токенов до центов, и постоянно ускоряют инференс. Однако смыслового скачка в генерации ответов мы не наблюдаем довольно давно. Похоже, гонка технологий окончательно перешла из плоскости интеллекта в соревнование серверных мощностей и стоимости API.

Рейтинг LMSYS Chatbot Arena: почему новые языковые модели перестали впечатлять пользователей

Ещё публикации

Рейтинг LMSYS Chatbot Arena: почему новые языковые модели перестали впечатлять пользователей

Ещё публикации