Американская компания Google представила модель Gemini 3.5 Live Translate для синхронного голосового перевода_Глобальные новости

Американская компания Google представила модель Gemini 3.5 Live Translate для синхронного голосового перевода

2026-06-10 09:08

В избр.

Репортаж от Wedoany，9 июня американская компания Google объявила о запуске модели Gemini 3.5 Live Translate для синхронного голосового перевода. Модель предназначена для сценариев голосового перевода в реальном времени, способна автоматически распознавать более 70 языков, генерировать более естественную и плавную речь перевода, максимально сохраняя интонацию, темп и высоту голоса говорящего. С сегодняшнего дня она поэтапно внедряется в таких продуктах и сервисах, как Google Translate, Gemini Live API, Google AI Studio и Google Meet.

Ключевые возможности Gemini 3.5 Live Translate сосредоточены на обработке непрерывного аудиопотока и генерации речи с низкой задержкой. Традиционные системы синхронного перевода часто требуют паузы или завершения фразы говорящим перед началом перевода, что приводит к заметным задержкам, неестественному разделению предложений и потере интонации. Новая модель Google обрабатывает аудио в процессе речи, динамически балансируя между получением контекста и поддержанием синхронизации, что позволяет переведённой речи следовать за оригиналом с минимальной задержкой. Для таких сценариев, как международные конференции, онлайн-уроки, прямые трансляции, звонки в службу поддержки, туристическое общение и многоязычное сотрудничество, ценность этой модели заключается в приближении опыта перевода к синхронному переводу, а не в простом преобразовании речи в текст с последующим механическим озвучиванием. Модель способна автоматически распознавать язык в многоязычном вводе, сокращая необходимость ручного переключения настроек пользователем, а также повышает практическую пригодность в шумной обстановке.

Модель поддерживает более 70 языков и может охватывать более 2000 языковых комбинаций в Google Meet. Разработчики могут получить доступ к модели через публичную бета-версию Gemini Live API, корпоративные пользователи могут опробовать её в закрытом бета-тестировании Google Meet, а обычные пользователи — постепенно использовать в Google Translate на Android и iOS.

Для Google Gemini 3.5 Live Translate выводит возможности больших языковых моделей на уровень высокочастотных коммуникационных интерфейсов. Перевод всегда был одной из областей, где Google накопил значительный объём данных и продуктов, ранее сосредоточившись на текстовом переводе, переводе по фото, диалоговом переводе и офлайн-переводе. С развитием нативных мультимодальных моделей голосовой перевод переходит от поэтапного процесса «распознавание — перевод — синтез» к более целостному сквозному аудиоопыту. Если Gemini 3.5 Live Translate сможет стабильно работать в реальных конференциях, на мобильных устройствах, в наушниках и в приложениях разработчиков, это укрепит позиции Google как поставщика ИИ-решений в области реального времени, офисного сотрудничества, изучения языков и кросс-граничных сервисов. Для разработчиков и корпоративных клиентов возможности синхронного перевода, предоставляемые Gemini Live API, могут быть интегрированы в видеоконференции, онлайн-образование, поддержку клиентов, интерактивные прямые трансляции и системы распространения многоязычного контента, превращая голосовой ИИ из точечной функции в базовую возможность приложений.

Google также добавил водяной знак SynthID в аудио, генерируемое этой моделью, для повышения идентифицируемости ИИ-созданного аудио. Дальнейший эффект внедрения будет зависеть от распознавания сложных акцентов, быстрых диалогов нескольких участников, долговременной стабильности речи, обработки фонового шума и семантической точности между разными языками. Синхронный голосовой перевод становится важным направлением коммерциализации больших языковых моделей. Тот, кто сможет обеспечить стабильный опыт с низкой задержкой, естественностью, точностью и широким охватом продуктов, с большей вероятностью получит доступ к следующему поколению инструментов межъязыковой коммуникации.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

США

Информация и коммуникация Искусственный интеллект Автоматическая обработка естественного языка

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта：news@wedoany.com