Репортаж от Wedoany,2 июня компания Microsoft (США) в рамках Build 2026 представила новых членов семейства моделей MAI. Среди них MAI-Transcribe-1.5, предназначенная для сценариев преобразования речи в текст, поддерживает 43 языка и обеспечивает более стабильное транскрибирование в условиях реального шума, акцентов, изменения темпа речи и отраслевой терминологии. Модель открыта для разработчиков и корпоративных приложений через такие платформы, как Microsoft Foundry.
Основное внимание MAI-Transcribe-1.5 уделяется переходу распознавания речи от «инструмента для транскрипции» к корпоративной основе понимания речи. В таких сценариях, как протоколирование совещаний, контроль качества обслуживания клиентов, медицинские интервью, удаленное обучение, контент подкастов, продающие звонки и накопление внутренних знаний, предприятиям требуется не просто преобразование звука в текст, но и сохранение читаемости, возможности поиска и повторного использования в длинных аудиозаписях, при множестве акцентов, на разных языках, в шумной обстановке и с большим количеством специальных терминов. В официальном заявлении Microsoft отмечается, что MAI-Transcribe-1.5 повышает устойчивость к реальным аудиоусловиям и поддерживает возможность смещения ключевых слов для предметной терминологии, что позволяет предприятиям заранее добавлять в контекст распознавания имена, названия продуктов, проектов, клиентов и отраслевые термины, уменьшая наиболее распространенную проблему ошибочного распознавания сущностей в результатах транскрипции.
Эта модель также включена в новую линейку собственных моделей MAI от Microsoft, образуя вместе с MAI-Voice-2, MAI-Code-1-Flash, MAI-Thinking-1 и другими моделями мультимодальную продуктовую линейку для работы с изображениями, речью, кодом, рассуждениями и транскрипцией.
С точки зрения индустрии обработки языка, голосовой ИИ переходит от автономной возможности к встраиванию в бизнес-процессы. Раньше при внедрении распознавания речи предприятиям часто приходилось искать компромисс между стоимостью, точностью, скоростью транскрипции и системной интеграцией. Теперь, когда модель транскрипции интегрирована в экосистему Microsoft, включая Foundry, Copilot, Teams, GitHub, Dynamics 365, голосовые данные могут более естественно поступать в сводки совещаний, управление взаимоотношениями с клиентами, анализ заявок, генерацию баз знаний и рабочие процессы агентов. Microsoft также упоминает, что в будущем MAI-Transcribe-1.5 получит поддержку диаризации дикторов, нативный потоковый API и большее количество языков. Это означает, что ее цель не ограничивается пакетной транскрипцией файлов, но также направлена на дальнейшее расширение в сценариях реального времени, таких как совещания, голосовые помощники, контакт-центры и онлайн-коллаборация.
Промышленная ценность таких моделей будет проявляться в превращении корпоративных аудиоданных в актив. Ежедневно предприятия генерируют огромное количество записей совещаний, звонков в службу поддержки, учебных материалов, записей телемаркетинга и мультимедийного контента. Однако, если эти аудиофайлы невозможно точно транскрибировать, архивировать, индексировать и анализировать, их трудно включить в цепочку приложений ИИ. MAI-Transcribe-1.5, поддерживая 43 языка, смещение предметной терминологии и вызовы через производственный API, способна снизить порог обработки голосовых данных в сценариях транснациональных компаний, многоязычных сервисных команд и глобального управления клиентами. По мере интеграции моделей преобразования речи в текст с агентами, поиском, базами знаний и бизнес-системами, фокус конкуренции в подкатегории обработки языка смещается с точности однократного распознавания на непрерывный рабочий процесс «транскрипция — структурирование — анализ — автоматическое выполнение».
Дальнейшие переменные связаны с темпами внедрения потоковой транскрипции, качеством диаризации дикторов, долгосрочной стабильностью для разных языков, стоимостью настройки корпоративной терминологии, а также с реальными результатами внедрения в сферах обслуживания клиентов, совещаний, медицины, образования и контентных платформ. Для корпоративных пользователей включение Microsoft собственной модели распознавания речи в свою производственную платформу ИИ также усилит конкуренцию между поставщиками голосового ИИ по таким параметрам, как точность, задержка, стоимость, соответствие требованиям и экосистемная интеграция.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









