Gemini 3.5 Live Translate вышел в 2026: живой перевод 70 языков за $2 в час
9 июня 2026 Google выпустила Gemini 3.5 Live Translate — потоковую аудиомодель, которая переводит речь в реальном времени на 70+ языков, сохраняя интонацию и темп голоса. Это не очередное обновление Google Translate. Это отдельная модель семейства Gemini 3.5, которая вышла одновременно в трёх местах: потребительское приложение, enterprise-продукт и API для разработчиков.
Разбираем, как это работает, сколько стоит и что можно на этом построить.
Gemini 3.5 Live Translate — потоковый speech-to-speech перевод на 70+ языков в реальном времени. Стоимость через API около $2.21 в час. Доступен в Google Translate (Android/iOS), Gemini Live API (public preview) и Google Meet (private preview). В статье: как работает модель, цены, конкуренты, кейсы для вайбкодеров.
Как работает Gemini 3.5 Live Translate — это не обычный переводчик?
Модель — интерпретатор, а не конвейер. Аудио заходит чанками по 100ms, переведённое аудио выходит немедленно. Никакой последовательности «распознай → переведи → озвучь».

Стандартный подход к голосовому переводу выглядит так: ASR распознаёт речь → MT переводит текст → TTS озвучивает результат. Три модели, три задержки, три точки ошибки. Когда один этап слетает, слетает весь пайплайн.
Gemini 3.5 Live Translate — единая модель, которая принимает аудиопоток и отдаёт аудиопоток. Входной формат: Raw 16-bit PCM, 16kHz, mono, чанки по 100ms. Выход: 24kHz. Модель автоматически определяет язык говорящего — не нужно заранее конфигурировать, кто на каком языке будет говорить.
Отставание от говорящего — несколько секунд. Не мгновенно, но это реальный разговор, а не «сначала подождём, пока человек закончит фразу».
Что ещё важно: модель сохраняет просодию. Интонация вопроса остаётся интонацией вопроса в переводе. Темп быстрой речи не превращается в монотонное чтение. Это принципиально отличает живой перевод от озвученного машинного текста.
Сколько стоит API — и почему долгие сессии дорожают
Около $2.21 в час при платном тире. Но есть нюанс биллинга: токены перебилливаются на каждом turn'е. Длинные разговоры стоят дороже, чем кажется по ставке.

| Бесплатный тир | Платный тир | |
|---|---|---|
| Аудиовход | Бесплатно | $3.50 / 1M токенов (~$0.0053/мин) |
| Аудиовыход | Бесплатно | $21.00 / 1M токенов (~$0.0315/мин) |
| Эффективная ставка | — | ~$0.0368/мин (~$2.21/час) |
| Данные для обучения | Google использует | Нет |
Для сравнения: человек-синхронист стоит $50-150 в час. DeepL Voice — $0.08-1.60 в минуту в зависимости от тарифа. $2/час через API — это другой порядок цифр.
Но есть нюанс: Live API биллит посессионно. Предыдущие аудиотокены перебилливаются на каждом новом turn'е. Чем длиннее разговор, тем дороже каждый следующий фрагмент. На форуме разработчиков уже появилось решение: принудительно закрывать сессию и перезапускать каждые ~6000 токенов. Неудобно, но работает.
⚠️ Бесплатный тир: Google использует аудиоданные для улучшения моделей. Для конфиденциальных разговоров и production — только платный.
Где уже работает Gemini 3.5 Live Translate
Три платформы одновременно: Translate для всех, API для разработчиков, Meet для enterprise. Ни один конкурент не вышел на все три фронта одним запуском.

Google Translate — уже у всех
Режим «Live translate» в приложении на Android и iOS. Работает с любыми наушниками — раньше требовались только Pixel Buds.
На Android появился эксклюзивный Listening mode: подносишь телефон к уху, перевод идёт через разговорный динамик, как обычный звонок. Без наушников, без гарнитуры. Идеальный формат для экскурсий, кафе, быстрых разговоров на улице. На iOS пока только с наушниками.
Gemini Live API — public preview
Модель gemini-3.5-live-translate-preview доступна через Gemini API. Настройка через translationConfig с targetLanguageCode (формат BCP-47). Есть параметр echoTargetLanguage — если включён, модель повторяет аудио, которое уже на целевом языке. Полезно, когда в разговоре оба участника иногда переходят на второй язык.
config = types.LiveConnectConfig(
response_modalities=["AUDIO"],
translation_config=types.TranslationConfig(
target_language_code="ru",
echo_target_language=True
)
)Готовые примеры — в Google AI Cookbook на GitHub. Протестировать можно в AI Studio бесплатно.
Google Meet — private preview
Было: 5 языков, перевод только с/на английский. Стало: 70+ языков, 2000+ комбинаций в одном звонке. Кнопка перевода вынесена прямо в основной интерфейс.
Private preview с июня 2026 для Workspace Business и Enterprise. Широкий запуск — позже в этом году. Администратор организации может отключить фичу на уровне организационной единицы.
Кто уже использует модель и для чего
Grab тестирует на 10M+ звонках в месяц. CJ ENM отмечает низкую задержку. Pipecat, LiveKit, Agora — берут инфраструктуру на себя.

Grab — ride-hailing сервис из Юго-Восточной Азии — тестирует модель для связи водителей и пассажиров. Сценарий: водитель говорит на тайском, пассажир на английском. Перевод в реальном времени прямо в интерфейсе приложения. 10M+ голосовых вызовов в месяц — масштаб реального production.
CJ ENM, южнокорейская медиакомпания, подключили для перевода медиаконтента и отметили высокое качество и низкую задержку.
Платформы реального времени — Agora, LiveKit, Fishjam, Pipecat, Vision Agents — уже берут на себя WebSocket-инфраструктуру. Разработчику не нужно разбираться в low-level стриминге: подключаешь через платформу, получаешь переведённый аудиопоток.
Максим: «Ребят, это работает — $2 в час за живой перевод, который раньше стоил 50-150 долларов с человеком. Мы в GoBanana такие вещи сразу берём на тест: встроить перевод в колл-центр или поддержку — это уже не сложная задача, это один вечер в Windsurf.»
Конкуренты: кто ещё умеет live voice translation
Google — единственный, кто покрывает потребительский рынок, enterprise и API одним запуском. Meta SeamlessM4T сильнее на бенчмарках, но требует self-hosted деплоя.

| Продукт | Модель | Цена | Платформы | Ограничения |
|---|---|---|---|---|
| Gemini 3.5 Live Translate | Единая S2S | ~$2.21/час API | Translate, Meet, API | Preview, нет GPU-кэша |
| Meta SeamlessM4T-v2 | Открытая | Self-hosted | Только API | Нет готового API, нужен деплой |
| DeepL Voice | ASR+MT+TTS | $0.08-1.60/мин | API | Нет публичных Voice-бенчмарков |
| Microsoft / Azure | Каскад | Платный | Teams, API | Голос хуже по оценкам |
| KUDO AI, Interprefy | Закрытые | Enterprise | Event-платформы | Нет стандартных метрик |
Apple на WWDC 2026 показала Siri AI с мультиязычностью, но без live voice-to-voice перевода. По прогнозу аналитиков TechFyle — Apple закроет этот пробел через лицензирование Gemini или собственную модель на WWDC 2027.
Что можно построить прямо сейчас
Колл-центры, телемедицина, ride-hailing, туризм — любое приложение с голосовым интерфейсом, где пользователи говорят на разных языках.
API в public preview — то есть можно подключать в продукты уже сегодня. Несколько конкретных сценариев:
Колл-центр: оператор говорит по-русски, клиент — по-испански. Перевод в реальном времени без отдельной команды мультиязычной поддержки. Grab уже тестирует похожую схему.
Телемедицина: врач и пациент на разных языках. Особенно актуально для клиник, работающих с мигрантами или туристами.
Образование: лекции и вебинары с живым переводом для международной аудитории. Преподаватель говорит на одном языке, студенты слышат на своём.
Стриминг и подкасты: автоматический перевод аудиоконтента в реальном времени для разных языковых аудиторий.
Туристические приложения: listening mode логика прямо в мобильном приложении — пользователь подносит телефон, слышит перевод через динамик.
Для интеграции достаточно подключиться к Gemini Live API. Инфраструктуру WebSocket и стриминга берут на себя Pipecat, LiveKit, Agora — готовые платформы с документацией.
Ограничения и что пока не работает
Preview-статус, тяжёлые акценты, долгие сессии дорожают, нет кастомизации под домен. Для mission-critical пока рано.

Честный список ограничений на момент релиза:
- Preview, не GA. Для критических продуктов лучше подождать стабильного релиза.
- Тяжёлые акценты — признанная слабость, упомянута прямо в API-документации.
- Похожие языки могут путаться при автоопределении — например, норвежский и датский.
- Биллинг долгих сессий — растёт нелинейно, нужен перезапуск.
- Нет кастомизации под домен — медицинская или юридическая терминология без дообучения.
- Только аудио на входе: текст не принимается принципиально, ради минимизации задержки.
- Нет function calling, structured outputs, Google Search grounding — только перевод.
Что ожидается: широкий запуск Google Meet, listening mode на iOS, возможно Gemini 3.5 Pro версия модели с более высоким качеством.
FAQ
Что такое Gemini 3.5 Live Translate?
Потоковая аудиомодель Google DeepMind для speech-to-speech перевода в реальном времени. Поддерживает 70+ языков, сохраняет интонацию и темп голоса. Вышла 9 июня 2026 — одновременно в Google Translate, Gemini Live API и Google Meet.
Чем это отличается от обычного голосового перевода в Google Translate?
Обычный перевод — последовательный конвейер: распознать → перевести → озвучить. Gemini 3.5 Live Translate — единая модель, которая принимает непрерывный аудиопоток и сразу отдаёт переведённый. Отставание несколько секунд, а не время на каждый этап конвейера.
Сколько стоит через API?
Около $2.21 в час при платном тире ($0.0368 в минуту). Аудиовход — $3.50 / 1M токенов, аудиовыход — $21.00 / 1M токенов. Биллинг: 25 токенов в секунду. Бесплатный тир есть, но Google использует данные для обучения.
Почему сессии через API дорожают со временем?
Live API перебилливает токены предыдущих turn'ов на каждом новом. Решение от разработчиков — принудительно перезапускать сессию каждые ~6000 токенов.
Нужны ли наушники?
На iOS — да, обязательны. На Android доступен Listening mode: подносишь телефон к уху, перевод идёт через разговорный динамик без наушников.
Как подключить в своё приложение?
Через Gemini Live API, модель gemini-3.5-live-translate-preview. Входной формат — Raw 16-bit PCM, 16kHz, mono. Конфигурация через translationConfig. Готовые примеры — в Google AI Cookbook. WebSocket-инфраструктуру берут на себя LiveKit, Pipecat, Agora.
Какие языки поддерживаются?
70+ языков с автоопределением — список на странице модели в AI Studio. В Google Meet — 2000+ комбинаций (было 5 языков, только через английский).
Глоссарий
Speech-to-speech (S2S) — режим перевода, при котором на вход поступает аудио, на выход тоже аудио. Без промежуточного текстового этапа.
Просодия — интонация, темп, ритм и высота голоса. Gemini 3.5 Live Translate сохраняет просодию в переводе, поэтому вопрос звучит как вопрос, а не монотонное чтение.
BCP-47 — стандарт кодов языков: ru — русский, pl — польский, en — английский. Используется в параметре target_language_code при настройке API.
echoTargetLanguage — параметр API. Если true: модель «повторяет» аудио, которое уже на целевом языке. Полезно, если оба участника иногда переходят на второй язык.
Listening mode — режим в Google Translate на Android. Телефон подносишь к уху, перевод слышишь через разговорный динамик, без наушников.
SynthID watermark — неслышимая цифровая метка, вшитая в весь аудиовывод модели. Невозможно удалить. Защита от использования в дипфейках и голосовом мошенничестве.
Ephemeral tokens — короткоживущие токены аутентификации для client-side приложений. Позволяют подключать Gemini Live API напрямую из браузера или мобильного приложения без проксирования через бэкенд.
Turn-based vs потоковый — turn-based: модель ждёт паузы или конца фразы, потом отвечает. Потоковый: переводит по мере речи, без ожидания.
В каталоге VibeCoderz собраны актуальные AI-инструменты для разработки — IDE, агенты и сервисы для вайбкодеров.
Если хотите разобраться, как встроить живой перевод в свой продукт или выстроить мультиязычный пайплайн, запишитесь на консультацию к Максиму.
Обновлено: июнь 2026.
Источники: официальный блог Google, API-документация, страница модели.