xAI официально запускает API для преобразования речи в текст и текста в речь Grok, пакетная обработка STT стоит 0,10 доллара в час
2026-04-20 14:52
В избр.

Репортаж от Wedoany,xAI 17 апреля по местному времени объявила о официальном запуске API для преобразования речи в текст (STT) и текста в речь (TTS) на платформе Grok. Согласно официальному заявлению xAI, это обновление направлено на предоставление высококачественных и низкозатратных возможностей голосового взаимодействия через модели ИИ, позволяя разработчикам интегрировать естественный и плавный опыт голосового диалога в приложениях. Новый API позволяет разработчикам интегрировать функции голосового взаимодействия в различные приложения, пользователи могут общаться с Grok с помощью голосового ввода и получать синтезированные аудиоответы. xAI открыла Grok Audio API как независимый сервис, что знаменует переход коммерческого пути её голосовых технологий от вертикальной интеграции к горизонтальному экспорту.

Grok STT API предоставляет услуги транскрипции с высокой точностью и низкой задержкой, поддерживает два способа подключения: пакетную обработку через REST API и потоковую транскрипцию в реальном времени через WebSocket API, а также обладает такими функциями, как временные метки на уровне слов, разделение говорящих, поддержка многоканальности и интеллектуальная обратная нормализация текста. Согласно опубликованным официальным данным тестирования, в тестах в различных областях, таких как телефонные разговоры, встречи, видео и подкасты, показатель частоты ошибок на слово у этого API превосходит показатели ведущих коммерческих голосовых моделей, таких как ElevenLabs, Deepgram и AssemblyAI. Сервис поддерживает более 25 языков, стоимость составляет 0,10 доллара в час для пакетной обработки и 0,20 доллара в час для потоковой обработки.

Grok TTS API может генерировать быстрый, естественный и выразительный речевой вывод, поддерживает детальное управление с помощью простых голосовых тегов, стоимость составляет 4,20 доллара за 1 миллион символов. TTS API предоставляет множество вариантов естественного голоса, разработчики могут гибко регулировать эффект синтеза с помощью голосовых тегов. Оба аудио API основаны на той же технологической платформе, которая обеспечивает работу Grok Voice, автомобилей Tesla и поддержку клиентов Starlink, и эта платформа прошла масштабную проверку в различных сценариях, таких как мобильные приложения, автомобильные системы и спутниковая связь.

Развитие голосовых технологий xAI началось с запуска API голосового агента Grok Voice Agent в декабре 2025 года. Этот API открывает для разработчиков проверенные голосовые агентские технологии, используемые в автомобилях Tesla и мобильных приложениях, поддерживает десятки языков, обладает возможностями вызова инструментов в реальном времени и веб-поиска, среднее время первого аудиоответа составляет менее 1 секунды, и он занимает первое место в оценке Big Bench Audio. Grok Voice Agent использует собственные полностековые голосовые технологии, включая обнаружение речевой активности, токенизатор и аудиомодель, стоимость составляет 0,05 доллара в минуту времени подключения, совместим со спецификацией OpenAI Realtime и предоставляет несколько вариантов естественного голоса, таких как Ара, Ив, Лео.

Запуск независимых API STT и TTS расширяет возможности обработки аудио от сценариев диалога в реальном времени до более широких сценариев разработки, таких как пакетная обработка и потоковая транскрипция. Разработчики могут выбирать между различными вариантами подключения, такими как агенты голосового взаимодействия в реальном времени, пакетная транскрипция аудио, потоковое распознавание речи и персонализированный синтез речи, в зависимости от конкретных потребностей приложения. Обогащение этой продуктовой матрицы позволяет xAI охватить все сценарии голосового взаимодействия — от диалогов в реальном времени с низкой задержкой до высокоточных пакетных обработок.

xAI ускоряет построение экосистемы разработчиков, ориентированной на Grok. В ноябре 2025 года xAI запустила Grok 4.1 Fast API, где частота информационных ошибок снизилась примерно на 65%, а частота галлюцинаций упала примерно на две трети. Цена ввода составляет лишь одну пятнадцатую от цены Grok 4, а цена вывода — лишь одну тридцатую, в сочетании с сверхдлинным контекстным окном в 2 миллиона токенов, что делает её самой экономичной моделью в продуктовой линейке xAI. Grok 4.1 Fast также поддерживает мультимодальные возможности, такие как вызов инструментов и поиск в интернете. От базовых API больших моделей до API обработки речи, а также вызова инструментов и поиска в реальном времени, API-продуктовая матрица xAI формирует полную цепочку инструментов для разработчиков, охватывающую три измерения: текстовые рассуждения, голосовое взаимодействие и интеллектуальные агенты.

На уровне приложений, голосовые API Grok уже реализованы в нескольких сценариях. Платформа облачных коммуникаций Voximplant в январе 2026 года интегрировала API голосового агента Grok Voice Agent в свою телефонную систему, позволяя Grok запускать диалоги в реальном времени через такие каналы, как телефонные номера, SIP-транки, WebRTC и WhatsApp Business. Некоторые разработчики создали помощника для планирования автомобильных путешествий на основе API Grok Voice, который за несколько секунд выполняет поиск рекомендаций, оптимизацию маршрутов и создание планов поездок. Голосовые API Grok также были интегрированы в платформы роботов для реализации тихих диалоговых взаимодействий с эмоциональной выразительностью. Tesla, как партнер по дизайну API голосового агента Grok Voice Agent, уже запустила голосовые функции в миллионах автомобилей Tesla.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Группа аэропортов Западного Китая повысила пунктуальность рейсов до 93%, сократив время наземного обслуживания на 1,3 минуты
2026-06-12
Китайская компания Kunlun Robotics запускает проект по созданию команды в области воплощённого интеллекта в Пекинской экономико-технологической зоне развития
2026-06-12
Республика Корея и другие стороны 11-го числа совместно учредили Инновационный центр строительных роботов с ИИ
2026-06-12
Компания Hollysys представляет AI для интеллектуального предупреждения о режимах работы технологических процессов на основе XWorld
2026-06-12
Agile Robots демонстрирует силовое управление и воплощённый ИИ на выставке Robot Technology Japan 2026
2026-06-12
Китайский Alibaba Cloud выпустил Meoo CLI для однокликового развёртывания AI-проектов
2026-06-12
Китайская компания JD.com представила первый в Китае протокол автономных платежей для интеллектуальных агентов с уровнями от L0 до L5
2026-06-12
Международный художественный центр Лунган в Шэньчжэне совместно с Huawei создал первое в мире арт-пространство на базе HarmonyOS и ИИ
2026-06-12
Чемпионат мира по футболу 2026 года в США, Канаде и Мексике: робот Atlas от Boston Dynamics выполнит первый удар
2026-06-12
Умная аптека Galaxy General установила рекорд непрерывной автономной работы человекоподобного робота
2026-06-12
Последние новости
1
Немецкая Mubea Aviation получила контракт от Airbus Atlantic на поставку композитных компонентов для A350
2
Группа аэропортов Западного Китая повысила пунктуальность рейсов до 93%, сократив время наземного обслуживания на 1,3 минуты
3
Китайская компания Kunlun Robotics запускает проект по созданию команды в области воплощённого интеллекта в Пекинской экономико-технологической зоне развития
4
Singapore Airlines возобновляет рейсы в Мадрид с октября 2026 года
5
Balaena приобретает британские верфи группы APCL
6
Республика Корея и другие стороны 11-го числа совместно учредили Инновационный центр строительных роботов с ИИ
7
Японская компания Mazak представила оборудование FF-1250H L для обработки крупных деталей, изготовленных методом литья под давлением
8
Китайская компания Donghua Machinery представляет несколько серий термопластавтоматов для удовлетворения потребностей бытовой техники
9
Производственные мощности второго поколения аккумуляторов Blade от китайской BYD ограничены из-за узких мест в лазерной технологии
10
Немецкая компания Dürr представляет новое поколение системы ротационного погружения RoDip E^zy