Платформа Artificial Analysis выкатила Speech to Speech Index. Это первый сводный бенчмарк для нативных голосовых моделей. Он оценивает сквозное взаимодействие «голос в голос», а не связку отдельных пайплайнов STT и TTS. Модель попадает в рейтинг только при наличии результатов по трём ключевым направлениям.
Индекс строится на трёх датасетах с равными весами. Big Bench Audio тестирует логику на слух через 1000 вопросов. Модели ищут логические ошибки, проходят навигацию и считают объекты. Full Duplex Bench проверяет динамику естественного диалога. Оценивается обработка пауз, перехват инициативы и реакция на перебивания пользователем. 𝜏-Voice замеряет агентность в сценариях виртуальной техподдержки. Модели решают задачи клиентов с доступом к специфичным инструментам.
Дополнительно авторы собирают данные по API-метрикам. Time to First Audio показывает задержку до генерации первого аудиотокена. Цена рассчитывается за час входящего аудио на стандартизированном наборе задач. Оценка учитывает аудиовход, генерацию речи и скрытые токены рассуждений. Практический фокус бенчмарка позволяет балансировать между качеством логики и стоимостью инференса.
Поделиться:
Маршрутизатор reverse-skill для автоматизации задач реверс-инжиниринга ИИ-агентами
Рэп про кодинг-агентов: как ИИ-ассистент Claude стал героем музыкального релиза на Spotify