VibeCoderzVibeCoderz
Все статьи
2026/06/118 мин чтения

Gemini 3.5 Live Translate: живой перевод 70 языков за $2 в час

9 июня 2026 Google выпустила Gemini 3.5 Live Translate — потоковую аудиомодель, которая переводит речь в реальном времени на 70+ языков, сохраняя интонацию и темп голоса. Это не очередное обновление Google Translate. Это отдельная модель семейства Ge…

Содержание (10)+

Gemini 3.5 Live Translate вышел в 2026: живой перевод 70 языков за $2 в час

9 июня 2026 Google выпустила Gemini 3.5 Live Translate — потоковую аудиомодель, которая переводит речь в реальном времени на 70+ языков, сохраняя интонацию и темп голоса. Это не очередное обновление Google Translate. Это отдельная модель семейства Gemini 3.5, которая вышла одновременно в трёх местах: потребительское приложение, enterprise-продукт и API для разработчиков.

Разбираем, как это работает, сколько стоит и что можно на этом построить.

Gemini 3.5 Live Translate — потоковый speech-to-speech перевод на 70+ языков в реальном времени. Стоимость через API около $2.21 в час. Доступен в Google Translate (Android/iOS), Gemini Live API (public preview) и Google Meet (private preview). В статье: как работает модель, цены, конкуренты, кейсы для вайбкодеров.

Как работает Gemini 3.5 Live Translate — это не обычный переводчик?

Модель — интерпретатор, а не конвейер. Аудио заходит чанками по 100ms, переведённое аудио выходит немедленно. Никакой последовательности «распознай → переведи → озвучь».

Изображение

Стандартный подход к голосовому переводу выглядит так: ASR распознаёт речь → MT переводит текст → TTS озвучивает результат. Три модели, три задержки, три точки ошибки. Когда один этап слетает, слетает весь пайплайн.

Gemini 3.5 Live Translate — единая модель, которая принимает аудиопоток и отдаёт аудиопоток. Входной формат: Raw 16-bit PCM, 16kHz, mono, чанки по 100ms. Выход: 24kHz. Модель автоматически определяет язык говорящего — не нужно заранее конфигурировать, кто на каком языке будет говорить.

Отставание от говорящего — несколько секунд. Не мгновенно, но это реальный разговор, а не «сначала подождём, пока человек закончит фразу».

Что ещё важно: модель сохраняет просодию. Интонация вопроса остаётся интонацией вопроса в переводе. Темп быстрой речи не превращается в монотонное чтение. Это принципиально отличает живой перевод от озвученного машинного текста.


Сколько стоит API — и почему долгие сессии дорожают

Около $2.21 в час при платном тире. Но есть нюанс биллинга: токены перебилливаются на каждом turn'е. Длинные разговоры стоят дороже, чем кажется по ставке.

Изображение
Бесплатный тирПлатный тир
АудиовходБесплатно$3.50 / 1M токенов (~$0.0053/мин)
АудиовыходБесплатно$21.00 / 1M токенов (~$0.0315/мин)
Эффективная ставка~$0.0368/мин (~$2.21/час)
Данные для обученияGoogle используетНет

Для сравнения: человек-синхронист стоит $50-150 в час. DeepL Voice — $0.08-1.60 в минуту в зависимости от тарифа. $2/час через API — это другой порядок цифр.

Но есть нюанс: Live API биллит посессионно. Предыдущие аудиотокены перебилливаются на каждом новом turn'е. Чем длиннее разговор, тем дороже каждый следующий фрагмент. На форуме разработчиков уже появилось решение: принудительно закрывать сессию и перезапускать каждые ~6000 токенов. Неудобно, но работает.

⚠️ Бесплатный тир: Google использует аудиоданные для улучшения моделей. Для конфиденциальных разговоров и production — только платный.


Где уже работает Gemini 3.5 Live Translate

Три платформы одновременно: Translate для всех, API для разработчиков, Meet для enterprise. Ни один конкурент не вышел на все три фронта одним запуском.

Изображение

Google Translate — уже у всех

Режим «Live translate» в приложении на Android и iOS. Работает с любыми наушниками — раньше требовались только Pixel Buds.

На Android появился эксклюзивный Listening mode: подносишь телефон к уху, перевод идёт через разговорный динамик, как обычный звонок. Без наушников, без гарнитуры. Идеальный формат для экскурсий, кафе, быстрых разговоров на улице. На iOS пока только с наушниками.

Gemini Live API — public preview

Модель gemini-3.5-live-translate-preview доступна через Gemini API. Настройка через translationConfig с targetLanguageCode (формат BCP-47). Есть параметр echoTargetLanguage — если включён, модель повторяет аудио, которое уже на целевом языке. Полезно, когда в разговоре оба участника иногда переходят на второй язык.

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    translation_config=types.TranslationConfig(
        target_language_code="ru",
        echo_target_language=True
    )
)

Готовые примеры — в Google AI Cookbook на GitHub. Протестировать можно в AI Studio бесплатно.

Google Meet — private preview

Было: 5 языков, перевод только с/на английский. Стало: 70+ языков, 2000+ комбинаций в одном звонке. Кнопка перевода вынесена прямо в основной интерфейс.

Private preview с июня 2026 для Workspace Business и Enterprise. Широкий запуск — позже в этом году. Администратор организации может отключить фичу на уровне организационной единицы.


Кто уже использует модель и для чего

Grab тестирует на 10M+ звонках в месяц. CJ ENM отмечает низкую задержку. Pipecat, LiveKit, Agora — берут инфраструктуру на себя.

Изображение

Grab — ride-hailing сервис из Юго-Восточной Азии — тестирует модель для связи водителей и пассажиров. Сценарий: водитель говорит на тайском, пассажир на английском. Перевод в реальном времени прямо в интерфейсе приложения. 10M+ голосовых вызовов в месяц — масштаб реального production.

CJ ENM, южнокорейская медиакомпания, подключили для перевода медиаконтента и отметили высокое качество и низкую задержку.

Платформы реального времени — Agora, LiveKit, Fishjam, Pipecat, Vision Agents — уже берут на себя WebSocket-инфраструктуру. Разработчику не нужно разбираться в low-level стриминге: подключаешь через платформу, получаешь переведённый аудиопоток.

Максим: «Ребят, это работает — $2 в час за живой перевод, который раньше стоил 50-150 долларов с человеком. Мы в GoBanana такие вещи сразу берём на тест: встроить перевод в колл-центр или поддержку — это уже не сложная задача, это один вечер в Windsurf.»

Конкуренты: кто ещё умеет live voice translation

Google — единственный, кто покрывает потребительский рынок, enterprise и API одним запуском. Meta SeamlessM4T сильнее на бенчмарках, но требует self-hosted деплоя.

Изображение
ПродуктМодельЦенаПлатформыОграничения
Gemini 3.5 Live TranslateЕдиная S2S~$2.21/час APITranslate, Meet, APIPreview, нет GPU-кэша
Meta SeamlessM4T-v2ОткрытаяSelf-hostedТолько APIНет готового API, нужен деплой
DeepL VoiceASR+MT+TTS$0.08-1.60/минAPIНет публичных Voice-бенчмарков
Microsoft / AzureКаскадПлатныйTeams, APIГолос хуже по оценкам
KUDO AI, InterprefyЗакрытыеEnterpriseEvent-платформыНет стандартных метрик

Apple на WWDC 2026 показала Siri AI с мультиязычностью, но без live voice-to-voice перевода. По прогнозу аналитиков TechFyle — Apple закроет этот пробел через лицензирование Gemini или собственную модель на WWDC 2027.


Что можно построить прямо сейчас

Колл-центры, телемедицина, ride-hailing, туризм — любое приложение с голосовым интерфейсом, где пользователи говорят на разных языках.

API в public preview — то есть можно подключать в продукты уже сегодня. Несколько конкретных сценариев:

Колл-центр: оператор говорит по-русски, клиент — по-испански. Перевод в реальном времени без отдельной команды мультиязычной поддержки. Grab уже тестирует похожую схему.

Телемедицина: врач и пациент на разных языках. Особенно актуально для клиник, работающих с мигрантами или туристами.

Образование: лекции и вебинары с живым переводом для международной аудитории. Преподаватель говорит на одном языке, студенты слышат на своём.

Стриминг и подкасты: автоматический перевод аудиоконтента в реальном времени для разных языковых аудиторий.

Туристические приложения: listening mode логика прямо в мобильном приложении — пользователь подносит телефон, слышит перевод через динамик.

Для интеграции достаточно подключиться к Gemini Live API. Инфраструктуру WebSocket и стриминга берут на себя Pipecat, LiveKit, Agora — готовые платформы с документацией.


Ограничения и что пока не работает

Preview-статус, тяжёлые акценты, долгие сессии дорожают, нет кастомизации под домен. Для mission-critical пока рано.

Изображение

Честный список ограничений на момент релиза:

  • Preview, не GA. Для критических продуктов лучше подождать стабильного релиза.
  • Тяжёлые акценты — признанная слабость, упомянута прямо в API-документации.
  • Похожие языки могут путаться при автоопределении — например, норвежский и датский.
  • Биллинг долгих сессий — растёт нелинейно, нужен перезапуск.
  • Нет кастомизации под домен — медицинская или юридическая терминология без дообучения.
  • Только аудио на входе: текст не принимается принципиально, ради минимизации задержки.
  • Нет function calling, structured outputs, Google Search grounding — только перевод.

Что ожидается: широкий запуск Google Meet, listening mode на iOS, возможно Gemini 3.5 Pro версия модели с более высоким качеством.


FAQ

Что такое Gemini 3.5 Live Translate?
Потоковая аудиомодель Google DeepMind для speech-to-speech перевода в реальном времени. Поддерживает 70+ языков, сохраняет интонацию и темп голоса. Вышла 9 июня 2026 — одновременно в Google Translate, Gemini Live API и Google Meet.

Чем это отличается от обычного голосового перевода в Google Translate?
Обычный перевод — последовательный конвейер: распознать → перевести → озвучить. Gemini 3.5 Live Translate — единая модель, которая принимает непрерывный аудиопоток и сразу отдаёт переведённый. Отставание несколько секунд, а не время на каждый этап конвейера.

Сколько стоит через API?
Около $2.21 в час при платном тире ($0.0368 в минуту). Аудиовход — $3.50 / 1M токенов, аудиовыход — $21.00 / 1M токенов. Биллинг: 25 токенов в секунду. Бесплатный тир есть, но Google использует данные для обучения.

Почему сессии через API дорожают со временем?
Live API перебилливает токены предыдущих turn'ов на каждом новом. Решение от разработчиков — принудительно перезапускать сессию каждые ~6000 токенов.

Нужны ли наушники?
На iOS — да, обязательны. На Android доступен Listening mode: подносишь телефон к уху, перевод идёт через разговорный динамик без наушников.

Как подключить в своё приложение?
Через Gemini Live API, модель gemini-3.5-live-translate-preview. Входной формат — Raw 16-bit PCM, 16kHz, mono. Конфигурация через translationConfig. Готовые примеры — в Google AI Cookbook. WebSocket-инфраструктуру берут на себя LiveKit, Pipecat, Agora.

Какие языки поддерживаются?
70+ языков с автоопределением — список на странице модели в AI Studio. В Google Meet — 2000+ комбинаций (было 5 языков, только через английский).


Глоссарий

Speech-to-speech (S2S) — режим перевода, при котором на вход поступает аудио, на выход тоже аудио. Без промежуточного текстового этапа.

Просодия — интонация, темп, ритм и высота голоса. Gemini 3.5 Live Translate сохраняет просодию в переводе, поэтому вопрос звучит как вопрос, а не монотонное чтение.

BCP-47 — стандарт кодов языков: ru — русский, pl — польский, en — английский. Используется в параметре target_language_code при настройке API.

echoTargetLanguage — параметр API. Если true: модель «повторяет» аудио, которое уже на целевом языке. Полезно, если оба участника иногда переходят на второй язык.

Listening mode — режим в Google Translate на Android. Телефон подносишь к уху, перевод слышишь через разговорный динамик, без наушников.

SynthID watermark — неслышимая цифровая метка, вшитая в весь аудиовывод модели. Невозможно удалить. Защита от использования в дипфейках и голосовом мошенничестве.

Ephemeral tokens — короткоживущие токены аутентификации для client-side приложений. Позволяют подключать Gemini Live API напрямую из браузера или мобильного приложения без проксирования через бэкенд.

Turn-based vs потоковый — turn-based: модель ждёт паузы или конца фразы, потом отвечает. Потоковый: переводит по мере речи, без ожидания.


В каталоге VibeCoderz собраны актуальные AI-инструменты для разработки — IDE, агенты и сервисы для вайбкодеров.

Если хотите разобраться, как встроить живой перевод в свой продукт или выстроить мультиязычный пайплайн, запишитесь на консультацию к Максиму.


Обновлено: июнь 2026.
Источники: официальный блог Google, API-документация, страница модели.

All Posts

Автор

Максим Наговицын
Максим Наговицын

Маркетинг-стратег, IT-предприниматель, ментор по вайбкодингу

2026/06/11

10+ лет в маркетинге, 300+ клиентских проектов: сайты, реклама, боты. Создатель GoBanana (228K+ пользователей, 11.6 млн ₽ выручки) и VibeCoderz. Делаю AI-продукты сам через Claude Code, Cursor, Windsurf и консультирую тех, кто хочет так же.

Об авторе →

Читать далее

📢 Новость

Claude Code: новый CLI-агент от Anthropic

Anthropic выпустила Claude Code — терминальный AI-агент для разработчиков. Инструмент работает прямо в командной строке и умеет писать, редактировать и запускать код.

2026/02/27
📝 Конспект

Zcode AI: Полный гид по визуальному интерфейсу для Claude Code и AI-агентов

Узнайте, как использовать Zcode для управления Claude Code, Gemini и Codex в едином GUI. Настройка провайдеров, MCP-серверов и визуальный вайбкодинг.

2026/02/28
📝 Конспект

YouTube-канал с монетизацией из любой точки мира: Пошаговый гайд 2026

Инструкция по созданию YouTube-канала: обход блокировок SMS, настройка расширенных функций через виртуальные номера и правила безопасности для монетизации.

2026/02/28
📝 Конспект

Windsurf Code Maps: Как глубоко понимать архитектуру проекта перед написанием кода

Полный гайд по Windsurf Code Maps, модели Sway 1.5 и Sway Grep. Узнайте, как визуализировать архитектуру кода и ускорить разработку в 13 раз.

2026/02/28
📝 Конспект

Vk Fast Cash Strategy

Аудитория ВКонтакте — это те же люди, что и в Instagram, но 'социальный контракт' площадки другой. Если Instagram — это 'дорогой ресторан' с демонстрацией успеха, то VK — это 'душевная шашлычная'. Здесь не работает глянцевый 'успешный успех

2026/02/28