Китайский Alibaba выпускает Qwen3.7-Plus: мультимодальный агент переходит от визуального понимания к сквозному выполнению
2026-06-02 09:19
В избр.

Репортаж от Wedoany,2 июня компания Alibaba официально представила мультимодальную модель-агент Qwen3.7-Plus. Данная модель расширяет текстовые возможности Qwen3.7 за счёт улучшенных визуально-языковых способностей, сохраняя при этом такие функции агента, как кодирование, использование инструментов и продуктивные рабочие процессы.

Ключевое изменение в Qwen3.7-Plus заключается в переходе от «понимания содержимого» к «пониманию интерфейса и выполнению задач». Согласно информации на странице облачной модели Qwen от Alibaba Cloud, мультимодальная модель-агент Qwen3.7-Plus способна не только понимать интерфейсы и управлять приложениями, но и писать код, а также предоставлять результаты. Её цель — реализовать сквозной цикл «видеть, думать, писать, делать, проверять». Для корпоративных AI-приложений мультимодальные возможности ранее в основном ограничивались такими этапами, как понимание изображений, распознавание документов, анализ диаграмм и создание сводок видео, где модель в основном выполняла роль считывания информации и интерпретации содержимого. На этапе агента предприятиям требуется, чтобы модель после понимания экрана, веб-страниц, распознавания интерфейсов программного обеспечения и чтения бизнес-материалов продолжала выполнять операции, включая вызов инструментов, генерацию кода, заполнение форм, обработку документов, выполнение офисных процессов и проверку результатов. Qwen3.7-Plus подчёркивает сочетание визуально-языковых способностей и возможностей агента, что означает, что мультимодальные модели начинают переходить от «уровня восприятия» к «уровню выполнения задач».

Это обновление также продолжает направление продуктов серии Qwen 3.7, ориентированное на эпоху агентов. Согласно информации на странице Alibaba Cloud, серия Qwen3.7 значительно продвинулась в программировании, автоматизации офисных задач и автономном выполнении долгосрочных задач, позиционируясь как приложение-агент для сложных сценариев.

С точки зрения технического внедрения, Qwen3.7-Plus лучше подходит для выполнения комплексных задач в корпоративных производственных сценариях. Многие бизнес-процессы не являются чисто текстовыми задачами, а состоят из веб-страниц, таблиц, изображений, PDF-файлов, внутренних систем, протоколов совещаний, репозиториев кода и бизнес-баз данных. Если модель может обрабатывать только текст, потребуется значительная ручная работа по преобразованию информации из интерфейса в команды; если она может только распознавать изображения, она не сможет напрямую выполнять последующие операции. Ценность мультимодальной модели-агента заключается в объединении визуального распознавания, языкового вывода, генерации кода, вызова инструментов и проверки результатов в единый процесс, позволяя AI работать в цепочке задач, более приближенной к реальной офисной среде. Например, в сценарии разработки программного обеспечения модель должна понимать скриншоты ошибок, находить файлы кода, изменять логику, запускать тесты и предоставлять пояснения по исправлению; в операционных и офисных сценариях модель должна распознавать внутренние страницы, извлекать данные, генерировать отчёты, обновлять документы и проверять единообразие форматирования. Стабильность выполнения таких задач напрямую повлияет на скорость внедрения агентов из демонстрационных продуктов в корпоративные рабочие процессы.

Qwen3.7-Plus также отражает, что конкуренция среди отечественных больших моделей смещается от единого масштаба параметров и универсальных возможностей ответов на вопросы к мультимодальным агентам, адаптации инструментальных цепочек и интеграции корпоративных рабочих процессов. В системе моделей Qwen Alibaba одновременно охватывает генерацию текста, визуальное понимание, речь, генерацию изображений, агентов кода и полимодальные модели, за которыми стоит продуктовый матрикс, состоящий из облачных сервисов, платформ для разработчиков, точек входа приложений и корпоративных API. Для корпоративных клиентов возможности самой модели — это лишь первый уровень; на решение о внедрении также влияют стоимость вызова, длина контекста, скорость вывода, управление правами доступа, безопасность данных, способы развёртывания (частное или облачное), а также возможность формирования стабильного интерфейса с существующими бизнес-системами. Если Qwen3.7-Plus сможет стабильно демонстрировать результаты в понимании визуальных интерфейсов и работе с инструментами, это поможет Alibaba ещё глубже внедрить возможности Qwen в сценарии разработки, офисной работы, обслуживания клиентов, обработки данных, совместного проектирования и автоматизации бизнес-процессов.

Дальнейшие переменные сосредоточены на фактическом уровне успешности выполнения задач, способности адаптации к сложным интерфейсам, стабильности выполнения длительных процессов, стоимости интеграции с корпоративными системами и расширении экосистемы разработчиков. Конкуренция мультимодальных моделей-агентов больше не сводится к тому, может ли модель отвечать на вопросы, а к тому, может ли она последовательно выполнять задачи в реальных бизнес-процессах, обнаруживать ошибки и предоставлять пригодные для использования результаты. Выпуск Qwen3.7-Plus показывает, что Alibaba продолжает смещать акцент итераций модели Qwen в сторону производственных приложений-агентов.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Исследование Университета штата Пенсильвания: точность ответов ИИ на вопросы о здоровье составляет почти 76%
2026-06-02
Американский Uber и израильская Autobrains запустили тестирование L4 Robotaxi в Мюнхене, Германия
2026-06-02
Сингапурская компания Empyrion Digital начала строительство центра обработки данных мощностью 20 МВт в Бангкоке (Таиланд), ИИ-кампус планируется ввести в эксплуатацию в третьем квартале 2027 года
2026-06-02
Португальский проект AI4REALNET опубликовал компонент ИИ для электросетей AINETUS с открытым исходным кодом
2026-06-02
Китайская компания Xingmai Innovation представила ИИ-роботов для очистки бассейнов, которые уже доступны в 38 странах
2026-06-02
Американская компания OpenAI запускает инструмент для выявления изображений, созданных ChatGPT
2026-06-02
Канадская компания Nextech3D.ai запускает торговую площадку Krafty Labs AI Event Marketplace
2026-06-02
Американская компания Palo Alto Networks завершила приобретение разработчика AI-шлюзов Portkey
2026-06-02
Экспорт полупроводников из Южной Кореи 1 июня вырос на 169% в годовом исчислении, что способствовало росту азиатских фондовых рынков
2026-06-02
Американская компания Identiv представляет низкоэнергетические Bluetooth-встраиваемые метки с технологией Wiliot
2026-06-02
Последние новости
1
Исследование Университета штата Пенсильвания: точность ответов ИИ на вопросы о здоровье составляет почти 76%
2
Link-Belt представляет 180-тонный гусеничный кран TCC-1800
3
Компания John Deere представила два новых погрузчика X-Tier с экономией топлива до 15%
4
Американская компания Ceccanti получила первый в Северной Америке кран Grove GHC220
5
Reifenhäuser представит на Chinaplas 2026 новые высокопроизводительные линии для выдувной и литьевой пленки
6
30 мая на Дне клиентов Palfinger в Бразилии представлен кран MD630
7
Mettler-Toledo представляет двухэнергетическую рентгеновскую систему X56 DXD+ с интеграцией ИИ
8
NVIDIA совместно с Unitree и Sharpa к концу 2026 года выпустит эталонного человекоподобного робота
9
Scania представляет аккумуляторный электрический CrewCab мощностью 356 кВт·ч
10
ACMI из США получила 50 миллионов долларов на запуск строительства центра оборонного производства