Google перевел синхронный перевод на потоковую speech-to-speech архитектуру в Gemini 3.5 Live Translate

Google перевел синхронный перевод на архитектуру прямого потокового вещания — это ломает классический пайплайн голосовых интерфейсов. Модель Gemini 3.5 Live Translate работает в формате speech-to-speech и генерирует звук непрерывно, не дожидаясь конца фразы спикера. Система балансирует между ожиданием контекста и моментальной выдачей, сокращая задержку до пары секунд. При этом алгоритм сохраняет оригинальную интонацию, темп и высоту голоса при переходе между 70 языками.

Для разработчиков это снимает проблему создания кастомной инфраструктуры потоковой передачи медиа. Доступ открыли в Google AI Studio и через Gemini Live API с прайсом около двух долларов за час использования. Инструмент уже нативно поддерживается в фреймворках вроде LiveKit и Pipecat. Это позволяет встраивать синхронный перевод в звонки или трансляции без необходимости собирать цепочку из распознавания, текстового перевода и синтеза речи.

Консьюмерский релиз охватывает сразу несколько продуктов. В Google Meet убрали ограничение на перевод только через английский — теперь доступны прямые кросс-переводы для 2000 языковых пар. В мобильном Google Translate добавили listening mode: если приложить телефон к уху, приложение будет транслировать переведенную речь собеседника прямо в разговорный динамик. Весь сгенерированный звук на уровне акустических волн скрыто маркируется водяным знаком SynthID, чтобы аудио не использовали для создания фейков.

Google перевел синхронный перевод на потоковую speech-to-speech архитектуру в Gemini 3.5 Live Translate

Ещё публикации

Google перевел синхронный перевод на потоковую speech-to-speech архитектуру в Gemini 3.5 Live Translate

Ещё публикации