Репортаж от Wedoany,16 июня компания Alibaba выпустила серию больших моделей воплощённого интеллекта Qwen-Robot, включающую три модели: модель управления VLA Qwen-RobotManip, модель навигации VLN Qwen-RobotNav и мировую модель Qwen-RobotWorld. Это первое полное семейство моделей воплощённого интеллекта в рамках серии больших моделей Qwen, ориентированных на управление роботами, мобильную навигацию и понимание окружающей среды. Модели могут развёртываться как по отдельности, так и работать совместно, предоставляя универсальную модельную базу для роботов различных форм, работающих в реальных сценариях.
Ключевая особенность воплощённого интеллекта заключается в том, чтобы ИИ не только понимал и генерировал текст, изображения и видео, но и взаимодействовал с физическим миром. Для работы в реальной среде робот должен одновременно выполнять несколько задач: «видеть объекты, понимать задачи, планировать маршруты, управлять движениями и оценивать результаты». Серия Qwen-Robot разделяет управление, перемещение и моделирование мира на три направления, что указывает на стремление Alibaba распространить возможности больших общих моделей на цепочку действий роботов, а не ограничиваться только диалогами или визуальным распознаванием.
Qwen-RobotManip — это модель управления VLA (Vision-Language-Action), которая решает проблему «рук» робота. При работе с объектами на столе, инструментами, деталями или предметами повседневного обихода робот должен распознавать цели, понимать инструкции и генерировать выполнимые действия: захват, перемещение, размещение, включение/выключение, сортировку и т. д. Традиционное управление роботами зависит от фиксированных программ и структурированной среды; при изменении положения объектов, фона, освещения или формулировки задачи способность к обобщению снижается. Ценность модели VLA заключается в объединении визуального восприятия, языковых инструкций и управления движениями в единую структуру, что позволяет роботу генерировать стратегии действий на основе естественного языка и текущей сцены.
Qwen-RobotNav — это модель навигации VLN (Vision-Language Navigation), которая решает проблему «ног» робота. Сервисные роботы, инспекционные роботы, четвероногие роботы и мобильные платформы, попадая в офисы, на заводы, склады, в парки или дома, должны понимать: «куда идти, как идти, что обходить, что делать после прибытия». Мобильная навигация — это не только планирование маршрута, но и семантическое понимание пространства, обход препятствий, выполнение многошаговых инструкций и подтверждение местоположения задачи. Модель VLN позволяет роботу сопоставлять языковые цели с визуальной средой, выполняя задачи перемещения в более сложных открытых пространствах.
Qwen-RobotWorld выполняет роль мировой модели, решая проблему «мозга» робота. Мировая модель используется для понимания взаимосвязей объектов, пространственной структуры, последствий действий и изменений окружающей среды, помогая роботу прогнозировать и планировать до выполнения действий. Если робот может выполнять только одношаговые действия по инструкции, ему трудно справляться с неожиданными ситуациями в реальном мире; мировая модель позволяет системе оценивать «что произойдёт после этого действия» и корректировать стратегию в процессе выполнения. Для промышленных, логистических, коммерческих и бытовых сценариев такие возможности определяют, сможет ли робот перейти от демонстрационных задач к непрерывной работе.
Ранее Alibaba уже проводила исследования в направлении Qwen-VLA. Согласно официальным техническим материалам Qwen-VLA, эта модель объединяет управление, навигацию и прогнозирование траекторий в единую структуру прогнозирования действий и траекторий, а также адаптируется к различным роботизированным платформам с помощью подсказок воплощённого восприятия. Исследования подчёркивают, что единая модель может обслуживать несколько воплощённых платформ без необходимости отдельного проектирования выходных головок для каждой. После выпуска серии Qwen-Robot путь воплощённого интеллекта Qwen перешёл от исследовательской структуры к продуктовой системе моделей.
С промышленной точки зрения, выпуск серии Qwen-Robot происходит на фоне ускоренного внедрения человекоподобных роботов, мобильных роботов и промышленных интеллектуальных агентов. Предприятия робототехники сталкиваются с общей проблемой: аппаратное обеспечение прогрессирует быстро, но универсальные возможности выполнения задач, способность к обобщению сценариев и замкнутый цикл данных остаются узкими местами. Датчики, суставы, исполнительные механизмы и методы управления у разных форм роботов сильно различаются; если каждое изделие обучать модель с нуля, это будет дорого, долго и не позволит накопить кроссплатформенные возможности. Цель больших моделей воплощённого интеллекта — предоставить различным роботам повторно используемые возможности восприятия, понимания, планирования и генерации действий.
Для Alibaba серия Qwen-Robot также завершает цепочку больших моделей Qwen от языка, мультимодальности, агентов до взаимодействия с физическим миром. Большие общие модели переходят от выполнения задач в онлайн-среде к реальным сценариям, а роботам требуются большие модели с более сильными способностями к пониманию задач и планированию действий. В будущем реальное внедрение воплощённых моделей будет зависеть от аппаратных интерфейсов роботов, масштаба обучающих данных, переноса между симуляцией и реальной средой, границ безопасности действий и адаптации к отраслевым сценариям. Выпуск модели — это лишь отправная точка; последующие результаты проверки на складах, при инспекциях, в производстве, коммерческих и бытовых услугах определят её промышленную ценность.
Значение серии Qwen-Robot заключается в том, что Alibaba начинает входить в ключевые звенья воплощённого интеллекта с полным набором моделей. VLA решает задачи управления, VLN — перемещения, мировая модель — понимания окружающей среды и планирования; при их совместной работе роботы получают возможность перейти от выполнения отдельных навыков к многошаговой обработке задач. По мере перехода воплощённого интеллекта из лабораторий в реальные рабочие среды универсальная модельная база, способность адаптации к аппаратному обеспечению и замкнутый цикл данных по сценариям станут ключевыми переменными в конкуренции робототехнической отрасли.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









