Репортаж от Wedoany,2 июня компания Alibaba официально представила мультимодальную модель-агент Qwen3.7-Plus. Данная модель расширяет текстовые возможности Qwen3.7 за счёт улучшенных визуально-языковых способностей, сохраняя при этом такие функции агента, как кодирование, использование инструментов и продуктивные рабочие процессы.
Ключевое изменение в Qwen3.7-Plus заключается в переходе от «понимания содержимого» к «пониманию интерфейса и выполнению задач». Согласно информации на странице облачной модели Qwen от Alibaba Cloud, мультимодальная модель-агент Qwen3.7-Plus способна не только понимать интерфейсы и управлять приложениями, но и писать код, а также предоставлять результаты. Её цель — реализовать сквозной цикл «видеть, думать, писать, делать, проверять». Для корпоративных AI-приложений мультимодальные возможности ранее в основном ограничивались такими этапами, как понимание изображений, распознавание документов, анализ диаграмм и создание сводок видео, где модель в основном выполняла роль считывания информации и интерпретации содержимого. На этапе агента предприятиям требуется, чтобы модель после понимания экрана, веб-страниц, распознавания интерфейсов программного обеспечения и чтения бизнес-материалов продолжала выполнять операции, включая вызов инструментов, генерацию кода, заполнение форм, обработку документов, выполнение офисных процессов и проверку результатов. Qwen3.7-Plus подчёркивает сочетание визуально-языковых способностей и возможностей агента, что означает, что мультимодальные модели начинают переходить от «уровня восприятия» к «уровню выполнения задач».
Это обновление также продолжает направление продуктов серии Qwen 3.7, ориентированное на эпоху агентов. Согласно информации на странице Alibaba Cloud, серия Qwen3.7 значительно продвинулась в программировании, автоматизации офисных задач и автономном выполнении долгосрочных задач, позиционируясь как приложение-агент для сложных сценариев.
С точки зрения технического внедрения, Qwen3.7-Plus лучше подходит для выполнения комплексных задач в корпоративных производственных сценариях. Многие бизнес-процессы не являются чисто текстовыми задачами, а состоят из веб-страниц, таблиц, изображений, PDF-файлов, внутренних систем, протоколов совещаний, репозиториев кода и бизнес-баз данных. Если модель может обрабатывать только текст, потребуется значительная ручная работа по преобразованию информации из интерфейса в команды; если она может только распознавать изображения, она не сможет напрямую выполнять последующие операции. Ценность мультимодальной модели-агента заключается в объединении визуального распознавания, языкового вывода, генерации кода, вызова инструментов и проверки результатов в единый процесс, позволяя AI работать в цепочке задач, более приближенной к реальной офисной среде. Например, в сценарии разработки программного обеспечения модель должна понимать скриншоты ошибок, находить файлы кода, изменять логику, запускать тесты и предоставлять пояснения по исправлению; в операционных и офисных сценариях модель должна распознавать внутренние страницы, извлекать данные, генерировать отчёты, обновлять документы и проверять единообразие форматирования. Стабильность выполнения таких задач напрямую повлияет на скорость внедрения агентов из демонстрационных продуктов в корпоративные рабочие процессы.
Qwen3.7-Plus также отражает, что конкуренция среди отечественных больших моделей смещается от единого масштаба параметров и универсальных возможностей ответов на вопросы к мультимодальным агентам, адаптации инструментальных цепочек и интеграции корпоративных рабочих процессов. В системе моделей Qwen Alibaba одновременно охватывает генерацию текста, визуальное понимание, речь, генерацию изображений, агентов кода и полимодальные модели, за которыми стоит продуктовый матрикс, состоящий из облачных сервисов, платформ для разработчиков, точек входа приложений и корпоративных API. Для корпоративных клиентов возможности самой модели — это лишь первый уровень; на решение о внедрении также влияют стоимость вызова, длина контекста, скорость вывода, управление правами доступа, безопасность данных, способы развёртывания (частное или облачное), а также возможность формирования стабильного интерфейса с существующими бизнес-системами. Если Qwen3.7-Plus сможет стабильно демонстрировать результаты в понимании визуальных интерфейсов и работе с инструментами, это поможет Alibaba ещё глубже внедрить возможности Qwen в сценарии разработки, офисной работы, обслуживания клиентов, обработки данных, совместного проектирования и автоматизации бизнес-процессов.
Дальнейшие переменные сосредоточены на фактическом уровне успешности выполнения задач, способности адаптации к сложным интерфейсам, стабильности выполнения длительных процессов, стоимости интеграции с корпоративными системами и расширении экосистемы разработчиков. Конкуренция мультимодальных моделей-агентов больше не сводится к тому, может ли модель отвечать на вопросы, а к тому, может ли она последовательно выполнять задачи в реальных бизнес-процессах, обнаруживать ошибки и предоставлять пригодные для использования результаты. Выпуск Qwen3.7-Plus показывает, что Alibaba продолжает смещать акцент итераций модели Qwen в сторону производственных приложений-агентов.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









