Gemini 3.5 Live Translate: живой перевод 70 языков за $2 в час

Gemini 3.5 Live Translate — новая потоковая аудиомодель от Google, позволяющая переводить речь на 70+ языков в реальном времени за примерно $2 в час. Она объединяет распознавание, перевод и озвучивание в одну оперативную цепочку, что обеспечивает быстрый и точный перевод без задержек.

9 июня 2026 Google выпустила Gemini 3.5 Live Translate — потоковую аудиомодель, которая переводит речь в реальном времени на 70+ языков, сохраняя интонацию и темп голоса. Это не очередное обновление Google Translate. Это отдельная модель семейства Gemini 3.5, которая вышла одновременно в трёх местах: потребительское приложение, enterprise-продукт и API для разработчиков.

Разбираем, как это работает, сколько стоит и что можно на этом построить.

Gemini 3.5 Live Translate — потоковый speech-to-speech перевод на 70+ языков в реальном времени. Стоимость через API около $2.21 в час. Доступен в Google Translate (Android/iOS), Gemini Live API (public preview) и Google Meet (private preview). В статье: как работает модель, цены, конкуренты, кейсы для вайбкодеров.

Как работает Gemini 3.5 Live Translate — это не обычный переводчик?

Модель — интерпретатор, а не конвейер. Аудио заходит чанками по 100ms, переведённое аудио выходит немедленно. Никакой последовательности «распознай → переведи → озвучь».

Стандартный подход к голосовому переводу выглядит так: ASR распознаёт речь → MT переводит текст → TTS озвучивает результат. Три модели, три задержки, три точки ошибки. Когда один этап слетает, слетает весь пайплайн.

Gemini 3.5 Live Translate — единая модель, которая принимает аудиопоток и отдаёт аудиопоток. Входной формат: Raw 16-bit PCM, 16kHz, mono, чанки по 100ms. Выход: 24kHz. Модель автоматически определяет язык говорящего — не нужно заранее конфигурировать, кто на каком языке будет говорить.

Отставание от говорящего — несколько секунд. Не мгновенно, но это реальный разговор, а не «сначала подождём, пока человек закончит фразу».

Что ещё важно: модель сохраняет просодию. Интонация вопроса остаётся интонацией вопроса в переводе. Темп быстрой речи не превращается в монотонное чтение. Это принципиально отличает живой перевод от озвученного машинного текста.

Сколько стоит API — и почему долгие сессии дорожают

Около $2.21 в час при платном тире. Но есть нюанс биллинга: токены перебилливаются на каждом turn'е. Длинные разговоры стоят дороже, чем кажется по ставке.

	Бесплатный тир	Платный тир
Аудиовход	Бесплатно	$3.50 / 1M токенов (~$0.0053/мин)
Аудиовыход	Бесплатно	$21.00 / 1M токенов (~$0.0315/мин)
Эффективная ставка	—	~$0.0368/мин (~$2.21/час)
Данные для обучения	Google использует	Нет

Для сравнения: человек-синхронист стоит $50-150 в час. DeepL Voice — $0.08-1.60 в минуту в зависимости от тарифа. $2/час через API — это другой порядок цифр.

Но есть нюанс: Live API биллит посессионно. Предыдущие аудиотокены перебилливаются на каждом новом turn'е. Чем длиннее разговор, тем дороже каждый следующий фрагмент. На форуме разработчиков уже появилось решение: принудительно закрывать сессию и перезапускать каждые ~6000 токенов. Неудобно, но работает.

⚠️ Бесплатный тир: Google использует аудиоданные для улучшения моделей. Для конфиденциальных разговоров и production — только платный.

Где уже работает Gemini 3.5 Live Translate

Три платформы одновременно: Translate для всех, API для разработчиков, Meet для enterprise. Ни один конкурент не вышел на все три фронта одним запуском.

Google Translate — уже у всех

Режим «Live translate» в приложении на Android и iOS. Работает с любыми наушниками — раньше требовались только Pixel Buds.

На Android появился эксклюзивный Listening mode: подносишь телефон к уху, перевод идёт через разговорный динамик, как обычный звонок. Без наушников, без гарнитуры. Идеальный формат для экскурсий, кафе, быстрых разговоров на улице. На iOS пока только с наушниками.

Gemini Live API — public preview

Модель gemini-3.5-live-translate-preview доступна через Gemini API. Настройка через translationConfig с targetLanguageCode (формат BCP-47). Есть параметр echoTargetLanguage — если включён, модель повторяет аудио, которое уже на целевом языке. Полезно, когда в разговоре оба участника иногда переходят на второй язык.

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    translation_config=types.TranslationConfig(
        target_language_code="ru",
        echo_target_language=True
    )
)

Готовые примеры — в Google AI Cookbook на GitHub. Протестировать можно в AI Studio бесплатно.

Google Meet — private preview

Было: 5 языков, перевод только с/на английский. Стало: 70+ языков, 2000+ комбинаций в одном звонке. Кнопка перевода вынесена прямо в основной интерфейс.

Private preview с июня 2026 для Workspace Business и Enterprise. Широкий запуск — позже в этом году. Администратор организации может отключить фичу на уровне организационной единицы.

Кто уже использует модель и для чего

Grab тестирует на 10M+ звонках в месяц. CJ ENM отмечает низкую задержку. Pipecat, LiveKit, Agora — берут инфраструктуру на себя.

Grab — ride-hailing сервис из Юго-Восточной Азии — тестирует модель для связи водителей и пассажиров. Сценарий: водитель говорит на тайском, пассажир на английском. Перевод в реальном времени прямо в интерфейсе приложения. 10M+ голосовых вызовов в месяц — масштаб реального production.

CJ ENM, южнокорейская медиакомпания, подключили для перевода медиаконтента и отметили высокое качество и низкую задержку.

Платформы реального времени — Agora, LiveKit, Fishjam, Pipecat, Vision Agents — уже берут на себя WebSocket-инфраструктуру. Разработчику не нужно разбираться в low-level стриминге: подключаешь через платформу, получаешь переведённый аудиопоток.

Максим: «Ребят, это работает — $2 в час за живой перевод, который раньше стоил 50-150 долларов с человеком. Мы в GoBanana такие вещи сразу берём на тест: встроить перевод в колл-центр или поддержку — это уже не сложная задача, это один вечер в Windsurf.»

Конкуренты: кто ещё умеет live voice translation

Google — единственный, кто покрывает потребительский рынок, enterprise и API одним запуском. Meta SeamlessM4T сильнее на бенчмарках, но требует self-hosted деплоя.

Продукт	Модель	Цена	Платформы	Ограничения
Gemini 3.5 Live Translate	Единая S2S	~$2.21/час API	Translate, Meet, API	Preview, нет GPU-кэша
Meta SeamlessM4T-v2	Открытая	Self-hosted	Только API	Нет готового API, нужен деплой
DeepL Voice	ASR+MT+TTS	$0.08-1.60/мин	API	Нет публичных Voice-бенчмарков
Microsoft / Azure	Каскад	Платный	Teams, API	Голос хуже по оценкам
KUDO AI, Interprefy	Закрытые	Enterprise	Event-платформы	Нет стандартных метрик

Apple на WWDC 2026 показала Siri AI с мультиязычностью, но без live voice-to-voice перевода. По прогнозу аналитиков TechFyle — Apple закроет этот пробел через лицензирование Gemini или собственную модель на WWDC 2027.

Что можно построить прямо сейчас

Колл-центры, телемедицина, ride-hailing, туризм — любое приложение с голосовым интерфейсом, где пользователи говорят на разных языках.

API в public preview — то есть можно подключать в продукты уже сегодня. Несколько конкретных сценариев:

Колл-центр: оператор говорит по-русски, клиент — по-испански. Перевод в реальном времени без отдельной команды мультиязычной поддержки. Grab уже тестирует похожую схему.

Телемедицина: врач и пациент на разных языках. Особенно актуально для клиник, работающих с мигрантами или туристами.

Образование: лекции и вебинары с живым переводом для международной аудитории. Преподаватель говорит на одном языке, студенты слышат на своём.

Стриминг и подкасты: автоматический перевод аудиоконтента в реальном времени для разных языковых аудиторий.

Туристические приложения: listening mode логика прямо в мобильном приложении — пользователь подносит телефон, слышит перевод через динамик.

Для интеграции достаточно подключиться к Gemini Live API. Инфраструктуру WebSocket и стриминга берут на себя Pipecat, LiveKit, Agora — готовые платформы с документацией.

Ограничения и что пока не работает

Preview-статус, тяжёлые акценты, долгие сессии дорожают, нет кастомизации под домен. Для mission-critical пока рано.

Честный список ограничений на момент релиза:

Preview, не GA. Для критических продуктов лучше подождать стабильного релиза.
Тяжёлые акценты — признанная слабость, упомянута прямо в API-документации.
Похожие языки могут путаться при автоопределении — например, норвежский и датский.
Биллинг долгих сессий — растёт нелинейно, нужен перезапуск.
Нет кастомизации под домен — медицинская или юридическая терминология без дообучения.
Только аудио на входе: текст не принимается принципиально, ради минимизации задержки.
Нет function calling, structured outputs, Google Search grounding — только перевод.

Что ожидается: широкий запуск Google Meet, listening mode на iOS, возможно Gemini 3.5 Pro версия модели с более высоким качеством.

FAQ

Что такое Gemini 3.5 Live Translate?
Потоковая аудиомодель Google DeepMind для speech-to-speech перевода в реальном времени. Поддерживает 70+ языков, сохраняет интонацию и темп голоса. Вышла 9 июня 2026 — одновременно в Google Translate, Gemini Live API и Google Meet.

Чем это отличается от обычного голосового перевода в Google Translate?
Обычный перевод — последовательный конвейер: распознать → перевести → озвучить. Gemini 3.5 Live Translate — единая модель, которая принимает непрерывный аудиопоток и сразу отдаёт переведённый. Отставание несколько секунд, а не время на каждый этап конвейера.

Сколько стоит через API?
Около $2.21 в час при платном тире ($0.0368 в минуту). Аудиовход — $3.50 / 1M токенов, аудиовыход — $21.00 / 1M токенов. Биллинг: 25 токенов в секунду. Бесплатный тир есть, но Google использует данные для обучения.

Почему сессии через API дорожают со временем?
Live API перебилливает токены предыдущих turn'ов на каждом новом. Решение от разработчиков — принудительно перезапускать сессию каждые ~6000 токенов.

Нужны ли наушники?
На iOS — да, обязательны. На Android доступен Listening mode: подносишь телефон к уху, перевод идёт через разговорный динамик без наушников.

Как подключить в своё приложение?
Через Gemini Live API, модель gemini-3.5-live-translate-preview. Входной формат — Raw 16-bit PCM, 16kHz, mono. Конфигурация через translationConfig. Готовые примеры — в Google AI Cookbook. WebSocket-инфраструктуру берут на себя LiveKit, Pipecat, Agora.

Какие языки поддерживаются?
70+ языков с автоопределением — список на странице модели в AI Studio. В Google Meet — 2000+ комбинаций (было 5 языков, только через английский).

Глоссарий

Speech-to-speech (S2S) — режим перевода, при котором на вход поступает аудио, на выход тоже аудио. Без промежуточного текстового этапа.

Просодия — интонация, темп, ритм и высота голоса. Gemini 3.5 Live Translate сохраняет просодию в переводе, поэтому вопрос звучит как вопрос, а не монотонное чтение.

BCP-47 — стандарт кодов языков: ru — русский, pl — польский, en — английский. Используется в параметре target_language_code при настройке API.

echoTargetLanguage — параметр API. Если true: модель «повторяет» аудио, которое уже на целевом языке. Полезно, если оба участника иногда переходят на второй язык.

Listening mode — режим в Google Translate на Android. Телефон подносишь к уху, перевод слышишь через разговорный динамик, без наушников.

SynthID watermark — неслышимая цифровая метка, вшитая в весь аудиовывод модели. Невозможно удалить. Защита от использования в дипфейках и голосовом мошенничестве.

Ephemeral tokens — короткоживущие токены аутентификации для client-side приложений. Позволяют подключать Gemini Live API напрямую из браузера или мобильного приложения без проксирования через бэкенд.

Turn-based vs потоковый — turn-based: модель ждёт паузы или конца фразы, потом отвечает. Потоковый: переводит по мере речи, без ожидания.

В каталоге VibeCoderz собраны актуальные AI-инструменты для разработки — IDE, агенты и сервисы для вайбкодеров.

Если хотите разобраться, как встроить живой перевод в свой продукт или выстроить мультиязычный пайплайн, запишитесь на консультацию к Максиму.

Обновлено: июнь 2026.
Источники: официальный блог Google, API-документация, страница модели.