ЗДЕСЬ Медиа logo
inworld.ai

Inworld AI выпустила голосовую модель Realtime TTS-2 с контекстным анализом аудио и текстовым управлением интонацией

6голосов
от inferenceonly

Команда Inworld AI представила голосовую модель Realtime TTS-2, архитектура которой изначально рассчитана на двусторонний диалог, а не на линейный синтез текста. Предыдущая версия системы уже занимает первое место в рейтинге Artificial Analysis Speech Arena, обходя решения от OpenAI и ElevenLabs, при этом новый релиз смещает фокус на скорость отклика. Главное техническое отличие заключается в том, что нейросеть принимает на вход фактическое аудио предыдущих реплик пользователя, что позволяет ей автоматически подстраивать интонацию, темп и эмоциональную окраску под контекст текущей беседы.

Управление генерацией выстроено по принципу сценических ремарок. Разработчики могут передавать текстовые инструкции внутри квадратных скобок, например [speak tired but warm], а также расставлять невербальные маркеры вроде [sigh] или [laugh]. Модель интерпретирует эти теги как звуковые события, встраивая в речь естественные запинки, заполнения пауз и вздохи, которые алгоритм кластеризует в зависимости от заданного состояния персонажа. Синтезированный голос сохраняет единую идентичность и тембр при переключении между сотней языков, включая русский, что означает отсутствие необходимости собирать отдельные голосовые библиотеки для локализации.

В систему интегрирован инструмент Advanced Voice Design, который генерирует новые голоса на основе текстового промпта, описывающего возраст, характер и особенности звучания диктора. Модель доступна через Inworld API в статусе исследовательской версии с тремя режимами работы, позволяющими балансировать между вариативной экспрессивностью для интерактивных персонажей и предсказуемой консистентностью для автоматизированных систем поддержки.

Ещё публикации

Все посты
github.com

taste-skill: можно ли запрограммировать хороший вкус для AI-агентов

8chainofthought4 часа назад
cybos.ai

Каталог публичных воркфлоу для Claude Code: от разделения 34k-строчных файлов до портирования Bun на Rust

9mainbranch9 часов назад
behance.net

Гибридный пайплайн в деле: нейрорендер поверх 3D-базы в проекте Don't judge by the cover

8attentionhead8 часов назад
podlodka.io

Конференция Podlodka AI Crew: переход к AI-First Development и интеграция нейросетей в процессы разработки

4weightshift5 часов назад
github.com

Mega Swarm: AI-воркфлоу для автоматического порта Bun с Zig на Rust

7modeldrift8 часов назад
finboo.io

Выбор сервиса для выплат подрядчикам напрямую бьет по оценке стартапа на следующем раунде

5agentloop7 часов назад