Репортаж от Wedoany,Китайская робототехническая компания X Square Robot продвигает человекоподобных роботов к более сложным сценариям применения, ставя перед собой ключевую цель — обеспечить автономную работу роботов в реальных, хаотичных и непредсказуемых условиях человеческой жизни и труда.

Основатель и генеральный директор компании Ван Цянь (Wang Qian) отметил, что аппаратная база робототехники в основном уже готова, а человекоподобное движение, ловкие руки и системы силового управления быстро прогрессируют; настоящим узким местом является интеллект. Чтобы восполнить этот пробел, X Square Robot за последние несколько недель открыла исходный код трёх технологий: модели «зрение-язык-действие» Wall-OSS-0.5, модели действий мира WALL-WM, предназначенной для понимания физических событий, а также фреймворка сбора данных и обучения без использования робота XRZero-G0.
Wall-OSS-0.5 напрямую отвечает на вопрос, может ли предварительное обучение научить робота полезным навыкам. В отличие от подхода с оценкой донастроенных моделей, компания развернула предварительно обученную модель непосредственно на физическом роботе и протестировала её в 17 реальных задачах. Система продемонстрировала нулевую производительность в сортировке объектов, складывании колец и манипуляции с деформируемыми объектами. Модель использует фреймворк обучения «градиентный мост», преобразующий действия робота в токены действий, которые изучаются вместе с языковыми и визуальными представлениями в ходе предварительного обучения, что позволяет восприятию, пониманию языка и генерации действий совместно эволюционировать в единой модели. Компания обнаружила, что обучение действиям не только улучшает навыки манипуляции, но и повышает производительность визуального заземления, что указывает на способность физического взаимодействия усиливать понимание мира моделью.
WALL-WM призвана решить проблему, при которой большинство VLA-систем изучают лишь траектории действий, не понимая по-настоящему физических причинно-следственных связей. Эта модель переводит обучение от фиксированных последовательностей действий к осмысленным физическим событиям, таким как дотягивание, захват, подъём и размещение. В отличие от традиционных архитектур, WALL-WM выравнивает визуальные наблюдения, языковые описания и действия вокруг реальных событий, стремясь к тому, чтобы робот мог не только действовать, но и прогнозировать результаты, рассуждать о физических изменениях и корректировать свои действия при сбое плана.
Для решения проблемы нехватки данных в воплощённом интеллекте X Square Robot представила программно-аппаратный фреймворк XRZero-G0. Эта система объединяет носимые интерфейсы, многовидовое зондирование, автоматизированный контроль качества и верификацию на реальных роботах для сбора данных и обучения без использования робота. В ходе контрольных экспериментов компания обнаружила, что комбинация десяти демонстраций без робота и одной демонстрации на реальном роботе позволяет достичь производительности, сопоставимой с набором данных, полностью построенным на данных от реальных роботов. Компания также опубликовала более 2000 часов мультимодальных данных, охватывающих около 3000 задач, для поддержки исследований в области воплощённого интеллекта.
Вместе эти три технологии с открытым исходным кодом образуют полностековый фреймворк, охватывающий данные, мировые модели и базовые модели роботов. Ван Цянь (Wang Qian) считает, что «момент озарения» для воплощённого интеллекта может наступить раньше, чем многие думают.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









