Репортаж от Wedoany,24 июня китайская компания Qwen официально представила нативную языковую мировую модель Qwen-AgentWorld, а также синхронно запустила бенчмарк AgentWorldBench для оценки языковых мировых моделей, охватывающий семь областей. Модель и бенчмарк уже доступны для открытого доступа на Hugging Face и ModelScope, предназначены для таких сценариев, как моделирование среды ИИ-агентов, обучение задачам и оценка способностей.
Основное позиционирование Qwen-AgentWorld — это «языковая мировая модель», а не обычная диалоговая большая модель. Она моделирует изменения состояния среды, в которой находится агент, с помощью языковой формы, и на основе действий агента и истории взаимодействий предсказывает следующую обратную связь от среды. Для ИИ-агентов такая модель предоставляет виртуальное интерактивное пространство, где можно многократно пробовать и ошибаться, используемое для обучения и оценки способностей агента к планированию, выполнению и исправлению ошибок в сложных задачах.
Выпущенная Qwen-AgentWorld охватывает семь областей взаимодействия агентов, включая вызов инструментов MCP, поиск, терминал, программную инженерию, Android, веб и операционные системы. Эти области включают как текстовые среды, так и графические интерфейсы и среды работы с программным обеспечением, охватывая типичные точки входа для задач современных ИИ-агентов. Модель может использоваться для моделирования результатов выполнения команд в терминале, обратной связи от веб-операций, изменений интерфейса мобильных приложений, прогресса в задачах программной инженерии и реакции среды после вызова инструментов.
Согласно официальной информации, Qwen-AgentWorld-35B-A3B обучена на базе Qwen3.5-35B-A3B-Base, имеет общий объем параметров 35B, активируемых параметров около 3B и поддерживает контекстную длину до 262K. Процесс обучения включает три этапа: непрерывное предварительное обучение, контролируемую тонкую настройку и обучение с подкреплением, причем цель с ранних этапов обучения сосредоточена на моделировании среды, а не на временном добавлении способностей к моделированию к универсальной языковой модели.
Одновременно выпущенный AgentWorldBench используется для оценки качества моделирования языковых мировых моделей в различных интерактивных средах. Этот бенчмарк оценивает предсказанные моделью наблюдения среды по пяти измерениям: формат, фактичность, согласованность, реалистичность и качество, помогая исследователям сравнивать производительность различных моделей в задачах моделирования среды. Страница на Hugging Face показывает, что набор данных AgentWorldBench открыт в виде тестового набора, содержащего около 2170 образцов.
Такие модели имеют прямое значение для разработки ИИ-агентов. В настоящее время обучение агентов сталкивается с реальной проблемой: высокая стоимость вызова реальных сред, сложность состояний задач, а среды API, веб, терминалов и мобильных приложений трудно стабильно воспроизводить в больших масштабах. Если языковая мировая модель сможет достаточно точно моделировать обратную связь от среды, исследователи смогут позволить агенту многократно пробовать и ошибаться в виртуальной среде, а затем переносить полученные стратегии в реальные задачи.
Выпуск Qwen-AgentWorld также показывает, что конкуренция больших моделей смещается от «ответов на вопросы» к «пониманию среды и предсказанию изменений среды». Раньше большие модели в основном соревновались в знаниях, рассуждениях и генеративных способностях, но в эпоху агентов большее значение придается способности оценивать последствия действий в многошаговых взаимодействиях. Ценность мировой модели заключается именно в создании обучаемого, оцениваемого и масштабируемого моста моделирования между действиями и результатами.
Однако языковые мировые модели все еще не могут заменить реальную среду. Веб, операционные системы, мобильные приложения и вызовы инструментов подвержены влиянию версий, разрешений, состояния сети и изменений внешних сервисов, поэтому результаты моделирования должны быть проверены в реальных сценариях. Qwen-AgentWorld больше подходит в качестве инфраструктуры для обучения и оценки агентов, чтобы снизить затраты на пробные ошибки, расширить охват среды и выявить слабые места агентов, а не как прямая замена работе реальной системы.
С синхронным открытием модели и бенчмарка разработчики могут проводить вторичную оценку и тонкую настройку для таких сценариев, как терминал, программная инженерия, мобильные приложения, поиск и вызов инструментов. Чтобы ИИ-агенты перешли от демонстраций к практическому использованию, необходимы более стабильное моделирование среды, воспроизводимые стандарты оценки и замкнутый цикл обучения, ориентированный на реальные задачи. Qwen-AgentWorld восполняет этот пробел, предоставляя новый инструментальный фундамент.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









