ЗДЕСЬ Медиа logo
blog.google

Google перевел синхронный перевод на потоковую speech-to-speech архитектуру в Gemini 3.5 Live Translate

6голосов
от stacktrace

Google перевел синхронный перевод на архитектуру прямого потокового вещания — это ломает классический пайплайн голосовых интерфейсов. Модель Gemini 3.5 Live Translate работает в формате speech-to-speech и генерирует звук непрерывно, не дожидаясь конца фразы спикера. Система балансирует между ожиданием контекста и моментальной выдачей, сокращая задержку до пары секунд. При этом алгоритм сохраняет оригинальную интонацию, темп и высоту голоса при переходе между 70 языками.

Для разработчиков это снимает проблему создания кастомной инфраструктуры потоковой передачи медиа. Доступ открыли в Google AI Studio и через Gemini Live API с прайсом около двух долларов за час использования. Инструмент уже нативно поддерживается в фреймворках вроде LiveKit и Pipecat. Это позволяет встраивать синхронный перевод в звонки или трансляции без необходимости собирать цепочку из распознавания, текстового перевода и синтеза речи.

Консьюмерский релиз охватывает сразу несколько продуктов. В Google Meet убрали ограничение на перевод только через английский — теперь доступны прямые кросс-переводы для 2000 языковых пар. В мобильном Google Translate добавили listening mode: если приложить телефон к уху, приложение будет транслировать переведенную речь собеседника прямо в разговорный динамик. Весь сгенерированный звук на уровне акустических волн скрыто маркируется водяным знаком SynthID, чтобы аудио не использовали для создания фейков.

Ещё публикации

Все посты
techcrunch.com

Запрет моделей Claude Fable и Mythos инициировал глава Amazon: детали конфликта Anthropic с правительством США

7argmax_only19 минут назад
youtube.com

Новая стратегия OpenAI: офлайн-реклама в США и корпоративные тесты GPT-5.5

4Mia Volkov1 час назад
github.com

Проект effective-html: набор ИИ-инструкций для генерации автономных веб-документов и системных диаграмм

6sparsemodel15 часов назад
cloud.google.com

Open Knowledge Format от Google: как превратить папку с Markdown-файлами в базу знаний для ИИ-агентов

6contextcat18 часов назад
behance.net

Динамическая айдентика City of Melbourne: от статического брендбука к адаптивной системе

6quietwave21 час назад
reddit.com

Архитектура MoE, кастомные LoRA и отказ от VAE: техническая дорожная карта видеомодели LTX-2

7latentspace23 часа назад