xAI официально запускает API для преобразования речи в текст и текста в речь Grok, пакетная обработка STT стоит 0,10 доллара в час
2026-04-20 14:52
В избр.

Репортаж от Wedoany,xAI 17 апреля по местному времени объявила о официальном запуске API для преобразования речи в текст (STT) и текста в речь (TTS) на платформе Grok. Согласно официальному заявлению xAI, это обновление направлено на предоставление высококачественных и низкозатратных возможностей голосового взаимодействия через модели ИИ, позволяя разработчикам интегрировать естественный и плавный опыт голосового диалога в приложениях. Новый API позволяет разработчикам интегрировать функции голосового взаимодействия в различные приложения, пользователи могут общаться с Grok с помощью голосового ввода и получать синтезированные аудиоответы. xAI открыла Grok Audio API как независимый сервис, что знаменует переход коммерческого пути её голосовых технологий от вертикальной интеграции к горизонтальному экспорту.

Grok STT API предоставляет услуги транскрипции с высокой точностью и низкой задержкой, поддерживает два способа подключения: пакетную обработку через REST API и потоковую транскрипцию в реальном времени через WebSocket API, а также обладает такими функциями, как временные метки на уровне слов, разделение говорящих, поддержка многоканальности и интеллектуальная обратная нормализация текста. Согласно опубликованным официальным данным тестирования, в тестах в различных областях, таких как телефонные разговоры, встречи, видео и подкасты, показатель частоты ошибок на слово у этого API превосходит показатели ведущих коммерческих голосовых моделей, таких как ElevenLabs, Deepgram и AssemblyAI. Сервис поддерживает более 25 языков, стоимость составляет 0,10 доллара в час для пакетной обработки и 0,20 доллара в час для потоковой обработки.

Grok TTS API может генерировать быстрый, естественный и выразительный речевой вывод, поддерживает детальное управление с помощью простых голосовых тегов, стоимость составляет 4,20 доллара за 1 миллион символов. TTS API предоставляет множество вариантов естественного голоса, разработчики могут гибко регулировать эффект синтеза с помощью голосовых тегов. Оба аудио API основаны на той же технологической платформе, которая обеспечивает работу Grok Voice, автомобилей Tesla и поддержку клиентов Starlink, и эта платформа прошла масштабную проверку в различных сценариях, таких как мобильные приложения, автомобильные системы и спутниковая связь.

Развитие голосовых технологий xAI началось с запуска API голосового агента Grok Voice Agent в декабре 2025 года. Этот API открывает для разработчиков проверенные голосовые агентские технологии, используемые в автомобилях Tesla и мобильных приложениях, поддерживает десятки языков, обладает возможностями вызова инструментов в реальном времени и веб-поиска, среднее время первого аудиоответа составляет менее 1 секунды, и он занимает первое место в оценке Big Bench Audio. Grok Voice Agent использует собственные полностековые голосовые технологии, включая обнаружение речевой активности, токенизатор и аудиомодель, стоимость составляет 0,05 доллара в минуту времени подключения, совместим со спецификацией OpenAI Realtime и предоставляет несколько вариантов естественного голоса, таких как Ара, Ив, Лео.

Запуск независимых API STT и TTS расширяет возможности обработки аудио от сценариев диалога в реальном времени до более широких сценариев разработки, таких как пакетная обработка и потоковая транскрипция. Разработчики могут выбирать между различными вариантами подключения, такими как агенты голосового взаимодействия в реальном времени, пакетная транскрипция аудио, потоковое распознавание речи и персонализированный синтез речи, в зависимости от конкретных потребностей приложения. Обогащение этой продуктовой матрицы позволяет xAI охватить все сценарии голосового взаимодействия — от диалогов в реальном времени с низкой задержкой до высокоточных пакетных обработок.

xAI ускоряет построение экосистемы разработчиков, ориентированной на Grok. В ноябре 2025 года xAI запустила Grok 4.1 Fast API, где частота информационных ошибок снизилась примерно на 65%, а частота галлюцинаций упала примерно на две трети. Цена ввода составляет лишь одну пятнадцатую от цены Grok 4, а цена вывода — лишь одну тридцатую, в сочетании с сверхдлинным контекстным окном в 2 миллиона токенов, что делает её самой экономичной моделью в продуктовой линейке xAI. Grok 4.1 Fast также поддерживает мультимодальные возможности, такие как вызов инструментов и поиск в интернете. От базовых API больших моделей до API обработки речи, а также вызова инструментов и поиска в реальном времени, API-продуктовая матрица xAI формирует полную цепочку инструментов для разработчиков, охватывающую три измерения: текстовые рассуждения, голосовое взаимодействие и интеллектуальные агенты.

На уровне приложений, голосовые API Grok уже реализованы в нескольких сценариях. Платформа облачных коммуникаций Voximplant в январе 2026 года интегрировала API голосового агента Grok Voice Agent в свою телефонную систему, позволяя Grok запускать диалоги в реальном времени через такие каналы, как телефонные номера, SIP-транки, WebRTC и WhatsApp Business. Некоторые разработчики создали помощника для планирования автомобильных путешествий на основе API Grok Voice, который за несколько секунд выполняет поиск рекомендаций, оптимизацию маршрутов и создание планов поездок. Голосовые API Grok также были интегрированы в платформы роботов для реализации тихих диалоговых взаимодействий с эмоциональной выразительностью. Tesla, как партнер по дизайну API голосового агента Grok Voice Agent, уже запустила голосовые функции в миллионах автомобилей Tesla.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
PSA Singapore развертывает цифровую радиосеть Motorola для более 4000 пользователей в порту Туас
2026-04-20
Глава Госкомитета по развитию и реформам Китая опубликовал статью о мерах по обеспечению экономической безопасности, нацеленных на комплексное преодоление трудностей в сфере интегральных схем и станкостроения
2026-04-20
Tesla расширяет сервис беспилотного такси Robotaxi в Даллас и Хьюстон, флот в трех городах Техаса достиг 48 автомобилей
2026-04-20
Первый в Пекине робот-регулировщик «Тяньи» дебютировал на полумарафоне в Ичжуане, 23 апреля он выйдет на дежурство на перекрестке
2026-04-20
LS Electric получает заказ на электрооборудование для ЦОД в Северной Америке на $115 млн и расширяет производство на двух крупных базах в Юте и Техасе
2026-04-20
В Пекине состоялся симпозиум по развитию интернета в Китае, Министерство промышленности и информатизации развернуло новую инфраструктуру 6G и интернета интеллектуальных агентов
2026-04-20
Tianfu Communication открыла новую штаб-квартиру в Сучжоу, планируя выпуск 1 млн высокоскоростных оптических компонентов в год для поддержки ИИ-вычислений
2026-04-20
xAI официально запускает API для преобразования речи в текст и текста в речь Grok, пакетная обработка STT стоит 0,10 доллара в час
2026-04-20
Заложен фундамент завода 3DGS по производству полупроводников в индийском штате Одиша с участием федерального министра Ашвини Вашнау
2026-04-20
Anthropic представляет инструмент визуального дизайна Claude Design, работающий на Opus 4.7 для создания прототипов и презентаций в диалоге
2026-04-20
Последние новости
1
Великобритания: объем присужденных строительных контрактов в марте достиг 7,18 млрд фунтов стерлингов, лидирует жилищный сектор
2
PSA Singapore развертывает цифровую радиосеть Motorola для более 4000 пользователей в порту Туас
3
Компания Honeywell получила контракт на технологию сжижения для производственных линий проекта Rio Grande LNG
4
HCCB запускает высокоэффективную скоростную линию по производству воды в штате Телангана
5
Группа stow укрепляет свое присутствие на рынке складских решений в Северной Америке за счет расширения производственных мощностей
6
Neo Performance запустила в Эстонии завод по производству тяжелых редкоземельных элементов
7
Компания Tropic запускает завод по производству высокопроизводительной выдувной пленки в Дурбане
8
Компания CASE Construction Equipment представляет новую серию N малых бульдозеров
9
В Пекине сошла с конвейера первая партия человекоподобных роботов на суперзаводе Lingyi Intelligent Manufacturing
10
Hesai Technology представляет 6D полноцветный чип, лидар ETX обновлён до 4320 линий