Модель MAI-Transcribe-1.5 от Microsoft (США) интегрирована в Foundry: модель транскрипции на 43 языках дополняет рабочий процесс голосового ИИ_Глобальные новости

Модель MAI-Transcribe-1.5 от Microsoft (США) интегрирована в Foundry: модель транскрипции на 43 языках дополняет рабочий процесс голосового ИИ

2026-06-03 16:50

В избр.

Репортаж от Wedoany，2 июня компания Microsoft (США) в рамках Build 2026 представила новых членов семейства моделей MAI. Среди них MAI-Transcribe-1.5, предназначенная для сценариев преобразования речи в текст, поддерживает 43 языка и обеспечивает более стабильное транскрибирование в условиях реального шума, акцентов, изменения темпа речи и отраслевой терминологии. Модель открыта для разработчиков и корпоративных приложений через такие платформы, как Microsoft Foundry.

Основное внимание MAI-Transcribe-1.5 уделяется переходу распознавания речи от «инструмента для транскрипции» к корпоративной основе понимания речи. В таких сценариях, как протоколирование совещаний, контроль качества обслуживания клиентов, медицинские интервью, удаленное обучение, контент подкастов, продающие звонки и накопление внутренних знаний, предприятиям требуется не просто преобразование звука в текст, но и сохранение читаемости, возможности поиска и повторного использования в длинных аудиозаписях, при множестве акцентов, на разных языках, в шумной обстановке и с большим количеством специальных терминов. В официальном заявлении Microsoft отмечается, что MAI-Transcribe-1.5 повышает устойчивость к реальным аудиоусловиям и поддерживает возможность смещения ключевых слов для предметной терминологии, что позволяет предприятиям заранее добавлять в контекст распознавания имена, названия продуктов, проектов, клиентов и отраслевые термины, уменьшая наиболее распространенную проблему ошибочного распознавания сущностей в результатах транскрипции.

Эта модель также включена в новую линейку собственных моделей MAI от Microsoft, образуя вместе с MAI-Voice-2, MAI-Code-1-Flash, MAI-Thinking-1 и другими моделями мультимодальную продуктовую линейку для работы с изображениями, речью, кодом, рассуждениями и транскрипцией.

С точки зрения индустрии обработки языка, голосовой ИИ переходит от автономной возможности к встраиванию в бизнес-процессы. Раньше при внедрении распознавания речи предприятиям часто приходилось искать компромисс между стоимостью, точностью, скоростью транскрипции и системной интеграцией. Теперь, когда модель транскрипции интегрирована в экосистему Microsoft, включая Foundry, Copilot, Teams, GitHub, Dynamics 365, голосовые данные могут более естественно поступать в сводки совещаний, управление взаимоотношениями с клиентами, анализ заявок, генерацию баз знаний и рабочие процессы агентов. Microsoft также упоминает, что в будущем MAI-Transcribe-1.5 получит поддержку диаризации дикторов, нативный потоковый API и большее количество языков. Это означает, что ее цель не ограничивается пакетной транскрипцией файлов, но также направлена на дальнейшее расширение в сценариях реального времени, таких как совещания, голосовые помощники, контакт-центры и онлайн-коллаборация.

Промышленная ценность таких моделей будет проявляться в превращении корпоративных аудиоданных в актив. Ежедневно предприятия генерируют огромное количество записей совещаний, звонков в службу поддержки, учебных материалов, записей телемаркетинга и мультимедийного контента. Однако, если эти аудиофайлы невозможно точно транскрибировать, архивировать, индексировать и анализировать, их трудно включить в цепочку приложений ИИ. MAI-Transcribe-1.5, поддерживая 43 языка, смещение предметной терминологии и вызовы через производственный API, способна снизить порог обработки голосовых данных в сценариях транснациональных компаний, многоязычных сервисных команд и глобального управления клиентами. По мере интеграции моделей преобразования речи в текст с агентами, поиском, базами знаний и бизнес-системами, фокус конкуренции в подкатегории обработки языка смещается с точности однократного распознавания на непрерывный рабочий процесс «транскрипция — структурирование — анализ — автоматическое выполнение».

Дальнейшие переменные связаны с темпами внедрения потоковой транскрипции, качеством диаризации дикторов, долгосрочной стабильностью для разных языков, стоимостью настройки корпоративной терминологии, а также с реальными результатами внедрения в сферах обслуживания клиентов, совещаний, медицины, образования и контентных платформ. Для корпоративных пользователей включение Microsoft собственной модели распознавания речи в свою производственную платформу ИИ также усилит конкуренцию между поставщиками голосового ИИ по таким параметрам, как точность, задержка, стоимость, соответствие требованиям и экосистемная интеграция.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

США

Информация и коммуникация Искусственный интеллект Автоматическая обработка естественного языка

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта：news@wedoany.com