Репортаж от Wedoany,На ежегодной конференции Build 2026 компания Microsoft представила несколько собственных ИИ-моделей, охватывающих области рассуждений, генерации изображений, транскрипции аудио и преобразования текста в речь. Пользователи могут бесплатно протестировать их на сайте Microsoft Playground. Тесты показали, что в целом эти модели демонстрируют приемлемые результаты, но не превосходят существующих конкурентов в своих областях.

Серия моделей Microsoft MAI (Microsoft AI) основана на внутренних больших языковых моделях (LLM) и отличается от чат-бота Copilot, работающего на технологии OpenAI. В число представленных моделей входят: модель рассуждений MAI-Thinking-1, модели генерации изображений MAI-Image-2.5 и 2.5 Flash, модель транскрипции аудио MAI-Transcribe-1.5, а также модели преобразования текста в речь MAI-Voice-2 и 2 Flash. Microsoft называет эти модели «экспериментальными» и находящимися в состоянии «ограниченного предварительного просмотра». MAI-Thinking-1 в настоящее время доступна для раннего доступа только определённым пользователям.
MAI-Thinking-1, первая модель рассуждений от Microsoft, сравнивалась с моделью Claude Sonnet от Anthropic при обработке сложных запросов. Тесты показали, что модель Microsoft не имеет доступа к интернету и не демонстрирует значительных улучшений по сравнению с Sonnet в точности, качестве ответов или скорости при ответах на вопросы о механике игры Path of Exile 2 и построении структуры базы данных.
MAI-Image-2.5 значительно улучшилась по сравнению с первой версией от октября 2025 года, но всё ещё уступает Nano Banana Pro от Gemini в чёткости изображения и рендеринге текста. В ходе тестов в комиксах и диаграммах, созданных MAI-Image-2.5, наблюдались искажения текста, в то время как у Nano Banana Pro этой проблемы не было.
В тесте на транскрипцию модель MAI-Transcribe-1.5 допустила 13 ошибок, в то время как Gemini в том же сценарии допустила всего 6 ошибок. При расшифровке текста сложной песни обе модели допустили ошибки, но транскрипция MAI-Transcribe-1.5 оборвалась до окончания песни. Google не позиционирует Gemini специально как инструмент для транскрипции.

MAI-Voice-2 предлагает множество языков и стилей, но в ходе тестов сочетание качества аудио, звуков дыхания, ритма и интонации приводило к тому, что голос звучал явно неестественно, далеко не достигая реалистичности таких голосовых технологий, как Sesame. В настоящее время модель поддерживает настройку голоса с помощью различных стилей.

Предварительные тесты с точки зрения потребителя показывают, что общая оценка моделей Microsoft MAI — «нормально», что аналогично производительности Copilot. Их конкурентоспособность больше зависит от широкого набора функций и интеграции в экосистему Microsoft, чем от абсолютного превосходства самих базовых моделей. Тем не менее, учитывая скорость улучшения серии MAI-Image за последние несколько месяцев, Microsoft продолжит тестирование этих моделей.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









