Репортаж от Wedoany,Новое исследование представляет генеративный процесс для обучения человекоподобных роботов навыкам мобильного манипулирования, который позволяет генерировать большие объёмы парных данных без ручной разметки.
Для реализации восприятия и мобильного манипулирования человекоподобным роботам необходимо связывать собственные наблюдения и команды с движениями всего тела. Обучение такому отображению требует синхронизированных эгоцентрических изображений, языковых команд и совместимых с роботом кинематических траекторий, однако существующие источники данных не могут предоставить такие полные наборы в больших масштабах. Исследовательская группа решает эту проблему путём синтезированной генерации визуально-лингво-кинематического (VLK) контроля в реконструированных сценах.
Данный процесс использует 3D Gaussian Splatting для реконструкции внутренних помещений с метрическим масштабом, синтезирует траектории навигации и взаимодействия с объектами с помощью привилегированной информации о сцене, а затем рендерит парные эгоцентрические наблюдения постфактум. Без вмешательства человека исследователи сгенерировали 48 000 парных траекторий и обучили стратегию VLK, которая предсказывает кинематические траектории всего тела на коротком временном горизонте. Полнотельный трекер преобразует эти прогнозы в реальные движения физического человекоподобного робота.
Для проверки эффективности метода исследовательская группа выполнила задачи навигации и транспортировки одного объекта на физическом человекоподобном роботе Unitree G1. Результаты показывают, что синтезированные взаимодействия, сгенерированные в реконструированных сценах, могут обеспечить эффективный контроль для восприятия человекоподобных роботов на основе подхода sim-to-real. Веб-сайт проекта опубликован.









