Репортаж от Wedoany,xAI 17 апреля по местному времени объявила о официальном запуске API для преобразования речи в текст (STT) и текста в речь (TTS) на платформе Grok. Согласно официальному заявлению xAI, это обновление направлено на предоставление высококачественных и низкозатратных возможностей голосового взаимодействия через модели ИИ, позволяя разработчикам интегрировать естественный и плавный опыт голосового диалога в приложениях. Новый API позволяет разработчикам интегрировать функции голосового взаимодействия в различные приложения, пользователи могут общаться с Grok с помощью голосового ввода и получать синтезированные аудиоответы. xAI открыла Grok Audio API как независимый сервис, что знаменует переход коммерческого пути её голосовых технологий от вертикальной интеграции к горизонтальному экспорту.
Grok STT API предоставляет услуги транскрипции с высокой точностью и низкой задержкой, поддерживает два способа подключения: пакетную обработку через REST API и потоковую транскрипцию в реальном времени через WebSocket API, а также обладает такими функциями, как временные метки на уровне слов, разделение говорящих, поддержка многоканальности и интеллектуальная обратная нормализация текста. Согласно опубликованным официальным данным тестирования, в тестах в различных областях, таких как телефонные разговоры, встречи, видео и подкасты, показатель частоты ошибок на слово у этого API превосходит показатели ведущих коммерческих голосовых моделей, таких как ElevenLabs, Deepgram и AssemblyAI. Сервис поддерживает более 25 языков, стоимость составляет 0,10 доллара в час для пакетной обработки и 0,20 доллара в час для потоковой обработки.
Grok TTS API может генерировать быстрый, естественный и выразительный речевой вывод, поддерживает детальное управление с помощью простых голосовых тегов, стоимость составляет 4,20 доллара за 1 миллион символов. TTS API предоставляет множество вариантов естественного голоса, разработчики могут гибко регулировать эффект синтеза с помощью голосовых тегов. Оба аудио API основаны на той же технологической платформе, которая обеспечивает работу Grok Voice, автомобилей Tesla и поддержку клиентов Starlink, и эта платформа прошла масштабную проверку в различных сценариях, таких как мобильные приложения, автомобильные системы и спутниковая связь.
Развитие голосовых технологий xAI началось с запуска API голосового агента Grok Voice Agent в декабре 2025 года. Этот API открывает для разработчиков проверенные голосовые агентские технологии, используемые в автомобилях Tesla и мобильных приложениях, поддерживает десятки языков, обладает возможностями вызова инструментов в реальном времени и веб-поиска, среднее время первого аудиоответа составляет менее 1 секунды, и он занимает первое место в оценке Big Bench Audio. Grok Voice Agent использует собственные полностековые голосовые технологии, включая обнаружение речевой активности, токенизатор и аудиомодель, стоимость составляет 0,05 доллара в минуту времени подключения, совместим со спецификацией OpenAI Realtime и предоставляет несколько вариантов естественного голоса, таких как Ара, Ив, Лео.
Запуск независимых API STT и TTS расширяет возможности обработки аудио от сценариев диалога в реальном времени до более широких сценариев разработки, таких как пакетная обработка и потоковая транскрипция. Разработчики могут выбирать между различными вариантами подключения, такими как агенты голосового взаимодействия в реальном времени, пакетная транскрипция аудио, потоковое распознавание речи и персонализированный синтез речи, в зависимости от конкретных потребностей приложения. Обогащение этой продуктовой матрицы позволяет xAI охватить все сценарии голосового взаимодействия — от диалогов в реальном времени с низкой задержкой до высокоточных пакетных обработок.
xAI ускоряет построение экосистемы разработчиков, ориентированной на Grok. В ноябре 2025 года xAI запустила Grok 4.1 Fast API, где частота информационных ошибок снизилась примерно на 65%, а частота галлюцинаций упала примерно на две трети. Цена ввода составляет лишь одну пятнадцатую от цены Grok 4, а цена вывода — лишь одну тридцатую, в сочетании с сверхдлинным контекстным окном в 2 миллиона токенов, что делает её самой экономичной моделью в продуктовой линейке xAI. Grok 4.1 Fast также поддерживает мультимодальные возможности, такие как вызов инструментов и поиск в интернете. От базовых API больших моделей до API обработки речи, а также вызова инструментов и поиска в реальном времени, API-продуктовая матрица xAI формирует полную цепочку инструментов для разработчиков, охватывающую три измерения: текстовые рассуждения, голосовое взаимодействие и интеллектуальные агенты.
На уровне приложений, голосовые API Grok уже реализованы в нескольких сценариях. Платформа облачных коммуникаций Voximplant в январе 2026 года интегрировала API голосового агента Grok Voice Agent в свою телефонную систему, позволяя Grok запускать диалоги в реальном времени через такие каналы, как телефонные номера, SIP-транки, WebRTC и WhatsApp Business. Некоторые разработчики создали помощника для планирования автомобильных путешествий на основе API Grok Voice, который за несколько секунд выполняет поиск рекомендаций, оптимизацию маршрутов и создание планов поездок. Голосовые API Grok также были интегрированы в платформы роботов для реализации тихих диалоговых взаимодействий с эмоциональной выразительностью. Tesla, как партнер по дизайну API голосового агента Grok Voice Agent, уже запустила голосовые функции в миллионах автомобилей Tesla.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









