Microsoft (США) представила API распознавания речи на стороне клиента для Windows и малые языковые модели Aion
2026-06-04 16:18
В избр.

Репортаж от Wedoany,2–3 июня на конференции Build 2026 компания Microsoft (США) анонсировала обновление Windows AI APIs, включив в него API распознавания речи на стороне клиента, а также представила малые языковые модели Aion 1.0 Instruct и Aion 1.0 Plan, предназначенные для локального выполнения. Эти возможности ориентированы в первую очередь на разработчиков Windows 11 и позволяют реализовать преобразование речи в текст, интеллектуальную обработку текста и выполнение локальных агентных задач на персональных компьютерах.

Данное обновление переносит возможности обработки языка непосредственно на конечные устройства. Новый API распознавания речи поддерживает генерацию результатов транскрипции в реальном времени или пакетно из микрофона, аудиопотоков и аудиофайлов, что может использоваться для создания субтитров, голосового ввода, аудио- и видеоприложений, а также инструментов доступности. Microsoft подчеркивает, что при локальном выполнении эта возможность позволяет генерировать транскрипцию даже без подключения к сети, снижая зависимость от облачных вычислений. Для корпоративного ПО, инструментов для совещаний, полевой записи на производстве, удаленного обслуживания и систем обучения ценность локального распознавания речи заключается в снижении задержек, уменьшении затрат на облачные вызовы и возможности обработки части конфиденциальных речевых данных непосредственно на устройстве. По мере проникновения ИИ в офисные и отраслевые конечные устройства распознавание речи превращается из отдельного функционального модуля в базовую возможность на уровне операционной системы.

Aion 1.0 Instruct позиционируется как малая языковая модель для рабочих нагрузок на стороне клиента, способная выполнять такие интеллектуальные задачи с текстом, как создание сводок, перефразирование, распознавание намерений и задачи, связанные с доступностью.

Aion 1.0 Plan, в свою очередь, предназначена для сценариев локального агентного вывода. Модель имеет 14 миллиардов параметров, поддерживает контекстную длину в 32 000 токенов и возможность вызова инструментов, помогая приложениям понимать намерения пользователя, вызывать инструменты, управлять файлами и координировать работу подчиненных агентов. Microsoft планирует запускать эту модель как часть Windows на подходящих устройствах, перемещая часть агентных процессов из облака на локальные устройства. Для разработчиков это означает, что в будущем настольные приложения смогут напрямую вызывать возможности понимания текста, распознавания речи и оркестровки инструментов на уровне операционной системы, без необходимости интеграции внешних модельных сервисов для каждого приложения отдельно. Для ИТ-отделов предприятий локальные модели также порождают новые вопросы управления, включая права доступа моделей, границы доступа к файлам, идентификацию пользователей, хранение данных, производительность устройств и межприкладной аудит. Возможность масштабного внедрения в корпоративные сценарии будет зависеть от синхронного развития локальных ИИ-возможностей и механизмов безопасности управления.

Microsoft также объявила о расширении Windows AI APIs на большее количество компьютеров с Windows 11. Помимо NPU, некоторые возможности будут поддерживаться на CPU и GPU. На начальном этапе API распознавания речи будет работать преимущественно с английским языком, а в дальнейшем его поддержка будет постепенно расширяться на другие мировые рынки. С включением локальных моделей, распознавания речи и агентных возможностей в экосистему разработки Windows, технологии обработки языка переходят из облачных сервисных интерфейсов на уровень операционной системы конечных устройств, становясь важным базовым компонентом для разработки приложений, доступного взаимодействия и интеллектуальных корпоративных рабочих процессов.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Многоязычный экспериментальный терминал NASA продолжает расширять возможности коммерческой ретрансляции данных
2026-06-04
Французская команда разработала 3D-печатный симулятор ушных операций Otosurg
2026-06-04
Тайваньская компания Edgecore представила полностью фотонную платформу AI-инфраструктуры
2026-06-04
Американский альянс LoRa опубликовал трехлетнюю дорожную карту развития технологии LoRaWAN
2026-06-04
Компания GL Communications (США) представляет решение для записи трафика в сетях 400G
2026-06-04
Федеральная комиссия по связи США начала первый за четыре года аукцион по распределению спектра
2026-06-04
BDx в Индонезии получила обязательства по электроснабжению центров обработки данных мощностью 1,2 ГВт
2026-06-04
Американская компания MDaudit запускает платформу мониторинга доходов на основе ИИ, в 2025 году доход клиентов превысит 500 миллионов долларов
2026-06-04
Искусственный интеллект и машинное обучение в США совершают революцию в лечении позвоночника
2026-06-04
Симуляционные технологии в медицине способствуют стандартизации медицинского обучения и повышению безопасности пациентов
2026-06-04
Последние новости
1
Обзор горнодобывающего сектора за 4 июня: активы в сфере лития, графита, меди, золота и алюминия переходят в стадию инжиниринга
2
Обзор транспортно-логистического сектора от 4 июня: китайские предприятия открывают окно возможностей для координации маршрутов и модернизации оборудования
3
Многоязычный экспериментальный терминал NASA продолжает расширять возможности коммерческой ретрансляции данных
4
В медицинском кампусе Брайтон Хелс (Brighton Health Campus) в Австралии открылось новое отделение медицинской визуализации, которое является частью государственной программы расширения МРТ и КТ (Statewide MRI and CT Expansion Programme).
5
Канадское исследование: ПЭТ-визуализация выявила снижение плотности синапсов при рассеянном склерозе на 16,4%
6
Здание площадью 71 000 кв. футов в Олдерли-Парке (Великобритания) будет переоборудовано в частную больницу
7
Британская компания Flok Health привлекла $12,5 млн на развитие платформы ИИ-физиотерапии
8
Британская QCS приобретает CareBrain для ускорения трансформации сферы ухода
9
Калифорнийский университет и Оксфордский университет разработали носимый ультразвуковой пластырь для непрерывного мониторинга плода
10
Сингапурский Angel Eye внедряет ИИ-ретинальное сканирование для предоперационной оценки