Speech to Speech Index: сводный бенчмарк для нативных голосовых моделей

Платформа Artificial Analysis выкатила Speech to Speech Index. Это первый сводный бенчмарк для нативных голосовых моделей. Он оценивает сквозное взаимодействие «голос в голос», а не связку отдельных пайплайнов STT и TTS. Модель попадает в рейтинг только при наличии результатов по трём ключевым направлениям.

Индекс строится на трёх датасетах с равными весами. Big Bench Audio тестирует логику на слух через 1000 вопросов. Модели ищут логические ошибки, проходят навигацию и считают объекты. Full Duplex Bench проверяет динамику естественного диалога. Оценивается обработка пауз, перехват инициативы и реакция на перебивания пользователем. 𝜏-Voice замеряет агентность в сценариях виртуальной техподдержки. Модели решают задачи клиентов с доступом к специфичным инструментам.

Дополнительно авторы собирают данные по API-метрикам. Time to First Audio показывает задержку до генерации первого аудиотокена. Цена рассчитывается за час входящего аудио на стандартизированном наборе задач. Оценка учитывает аудиовход, генерацию речи и скрытые токены рассуждений. Практический фокус бенчмарка позволяет балансировать между качеством логики и стоимостью инференса.

Speech to Speech Index: сводный бенчмарк для нативных голосовых моделей

Ещё публикации

Speech to Speech Index: сводный бенчмарк для нативных голосовых моделей

Ещё публикации