Модель MAI-Transcribe-1.5 от Microsoft (США) интегрирована в Foundry: модель транскрипции на 43 языках дополняет рабочий процесс голосового ИИ
2026-06-03 16:50
В избр.

Репортаж от Wedoany,2 июня компания Microsoft (США) в рамках Build 2026 представила новых членов семейства моделей MAI. Среди них MAI-Transcribe-1.5, предназначенная для сценариев преобразования речи в текст, поддерживает 43 языка и обеспечивает более стабильное транскрибирование в условиях реального шума, акцентов, изменения темпа речи и отраслевой терминологии. Модель открыта для разработчиков и корпоративных приложений через такие платформы, как Microsoft Foundry.

Основное внимание MAI-Transcribe-1.5 уделяется переходу распознавания речи от «инструмента для транскрипции» к корпоративной основе понимания речи. В таких сценариях, как протоколирование совещаний, контроль качества обслуживания клиентов, медицинские интервью, удаленное обучение, контент подкастов, продающие звонки и накопление внутренних знаний, предприятиям требуется не просто преобразование звука в текст, но и сохранение читаемости, возможности поиска и повторного использования в длинных аудиозаписях, при множестве акцентов, на разных языках, в шумной обстановке и с большим количеством специальных терминов. В официальном заявлении Microsoft отмечается, что MAI-Transcribe-1.5 повышает устойчивость к реальным аудиоусловиям и поддерживает возможность смещения ключевых слов для предметной терминологии, что позволяет предприятиям заранее добавлять в контекст распознавания имена, названия продуктов, проектов, клиентов и отраслевые термины, уменьшая наиболее распространенную проблему ошибочного распознавания сущностей в результатах транскрипции.

Эта модель также включена в новую линейку собственных моделей MAI от Microsoft, образуя вместе с MAI-Voice-2, MAI-Code-1-Flash, MAI-Thinking-1 и другими моделями мультимодальную продуктовую линейку для работы с изображениями, речью, кодом, рассуждениями и транскрипцией.

С точки зрения индустрии обработки языка, голосовой ИИ переходит от автономной возможности к встраиванию в бизнес-процессы. Раньше при внедрении распознавания речи предприятиям часто приходилось искать компромисс между стоимостью, точностью, скоростью транскрипции и системной интеграцией. Теперь, когда модель транскрипции интегрирована в экосистему Microsoft, включая Foundry, Copilot, Teams, GitHub, Dynamics 365, голосовые данные могут более естественно поступать в сводки совещаний, управление взаимоотношениями с клиентами, анализ заявок, генерацию баз знаний и рабочие процессы агентов. Microsoft также упоминает, что в будущем MAI-Transcribe-1.5 получит поддержку диаризации дикторов, нативный потоковый API и большее количество языков. Это означает, что ее цель не ограничивается пакетной транскрипцией файлов, но также направлена на дальнейшее расширение в сценариях реального времени, таких как совещания, голосовые помощники, контакт-центры и онлайн-коллаборация.

Промышленная ценность таких моделей будет проявляться в превращении корпоративных аудиоданных в актив. Ежедневно предприятия генерируют огромное количество записей совещаний, звонков в службу поддержки, учебных материалов, записей телемаркетинга и мультимедийного контента. Однако, если эти аудиофайлы невозможно точно транскрибировать, архивировать, индексировать и анализировать, их трудно включить в цепочку приложений ИИ. MAI-Transcribe-1.5, поддерживая 43 языка, смещение предметной терминологии и вызовы через производственный API, способна снизить порог обработки голосовых данных в сценариях транснациональных компаний, многоязычных сервисных команд и глобального управления клиентами. По мере интеграции моделей преобразования речи в текст с агентами, поиском, базами знаний и бизнес-системами, фокус конкуренции в подкатегории обработки языка смещается с точности однократного распознавания на непрерывный рабочий процесс «транскрипция — структурирование — анализ — автоматическое выполнение».

Дальнейшие переменные связаны с темпами внедрения потоковой транскрипции, качеством диаризации дикторов, долгосрочной стабильностью для разных языков, стоимостью настройки корпоративной терминологии, а также с реальными результатами внедрения в сферах обслуживания клиентов, совещаний, медицины, образования и контентных платформ. Для корпоративных пользователей включение Microsoft собственной модели распознавания речи в свою производственную платформу ИИ также усилит конкуренцию между поставщиками голосового ИИ по таким параметрам, как точность, задержка, стоимость, соответствие требованиям и экосистемная интеграция.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Сингапурская компания SynaXG представила SynaSpark Rover — портативный бокс для частных сетей 5G, ориентированный на промышленное развертывание на местах
2026-06-03
Южнокорейская DEEPX и тайваньская AAEON подписали трехлетний меморандум о серийном производстве: чипы ИИ на периферии переходят к промышленному аппаратному развертыванию
2026-06-03
Американская компания Point Wild приобретает Funambol, интегрируя возможности облачных данных в защищенную платформу телекоммуникационных каналов
2026-06-03
ЕС планирует перевыдачу лицензий на мобильную спутниковую связь в диапазоне 2 ГГц: прямая связь с устройствами и правительственная безопасная связь войдут в единую систему авторизации
2026-06-03
Канадская компания Ataccama представляет доверенные продукты данных, а корпоративная обработка данных для ИИ переходит к семантике и единому управлению
2026-06-03
Американская компания Workday запускает Agent Passport: верификация корпоративных ИИ-агентов выходит на уровень ключевых процессов в сфере HR и финансов
2026-06-03
SES из Люксембурга развертывает многоорбитальную спутниковую связь на борту для мексиканской Viva, широкополосный доступ в интернет появится на сотне самолетов
2026-06-03
Выручка американской GitLab в первом квартале выросла на 23%, платформа DevSecOps переходит к оркестровке AI-агентов
2026-06-03
Модель MAI-Transcribe-1.5 от Microsoft (США) интегрирована в Foundry: модель транскрипции на 43 языках дополняет рабочий процесс голосового ИИ
2026-06-03
Объем мирового рынка NAND в первом квартале вырос на 81,8% по сравнению с предыдущим кварталом, доля поставок китайской YMTC в 13% становится отраслевой переменной
2026-06-03
Последние новости
1
Сингапурская компания SynaXG представила SynaSpark Rover — портативный бокс для частных сетей 5G, ориентированный на промышленное развертывание на местах
2
Китайская компания Bambu Lab в июне 2026 года выпускает 3D-принтер A2L с областью построения 330 мм
3
LR совместно с несколькими южнокорейскими компаниями разрабатывает судовоз для перевозки автомобилей на SMR-энергии
4
Компания Revopoint представила 3D-сканер POP 4 с точностью 0,03 мм на основе ИИ
5
Четыре северные страны основали Северный альянс аддитивного производства
6
Японская компания TDK представляет 360-градусный датчик Холла с частотой вращения до 60 000 об/мин
7
STMicroelectronics представляет автомобильный IMU ASM330LHHG1
8
Sinopec и BYD подписали соглашение о сотрудничестве по созданию сети сверхбыстрой зарядки
9
Проект по производству 200 000 тонн диметилкарбоната компании Jiangsu Sopoo в Китае получил одобрение, инвестиции составят 1,54 миллиарда юаней
10
Южнокорейская DEEPX и тайваньская AAEON подписали трехлетний меморандум о серийном производстве: чипы ИИ на периферии переходят к промышленному аппаратному развертыванию