OmniXtreme: Преодоление «барьера универсальности» в высокодинамичном управлении человекоподобными роботами. Одна стратегия освоила 24 экстремальных движения с успешностью свыше 91% Введение в технологии

OmniXtreme: Преодоление «барьера универсальности» в высокодинамичном управлении человекоподобными роботами. Одна стратегия освоила 24 экстремальных движения с успешностью свыше 91%

2026-03-14 17:43

В избр.

Заставить робота сделать сальто назад — не сложно. Заставить одного и того же робота делать сальто назад, исполнять пьяный кулак, брейк-данс и «томас» — вот настоящий вызов. Пекинский институт искусственного интеллекта общего назначения совместно с Unitree Robotics, Шанхайским университетом Цзяотун, Китайским университетом науки и технологий и другими учреждениями впервые предложили фреймворк OmniXtreme, позволивший одному роботу освоить десятки высокодинамичных экстремальных движений. При реальном развертывании общий показатель успешности достиг 91.08%, что полностью сломало «компромисс между точностью и масштабируемостью» в управлении движением человекоподобных роботов.

I. Дилемма «однобокого ученика» у человекоподобных роботов

От «дрожащего» робота-янгэ в 2024 году до плавных сальто назад, боковых ударов, владения нунчаками и пьяного кулака в номере «Wǔ BOT» на Весеннем фестивальном гала-концерте 2026 года — двигательные способности человекоподобных роботов за последние два года пережили стремительную эволюцию. Однако фундаментальная проблема, долгое время мучавшая исследователей, оставалась: «компромисс между точностью и масштабируемостью».

Проще говоря, современные роботы похожи на «однобоких учеников» — они могут стать чемпионами в одном отдельном виде, например, точно выполнить сальто назад. Но стоит попытаться научить одного и того же робота десяткам стилистически разных, сложных динамических движений, как эффективность обучения резко падает: контроллер становится консервативным, посредственным и часто терпит неудачу в самых сложных движениях.

Основатель Unitree Robotics Ван Синсин на Всемирном форуме робототехники 2025 года откровенно признал: «В настоящее время в области управления движением роботов существует проблема Scaling Law для обучения с подкреплением. Например, если мне нужно обучить новому танцу, каждый раз при добавлении нового движения приходится заново обучать с нуля». Он выразил надежду на реализацию в будущем непрерывного накопления навыков и трансферного обучения, позволяющего роботам постоянно расширять новые навыки на основе уже имеющихся.

II. Научно-технические достижения: двухэтапный обучающий фреймворк, преодолевающий «барьер универсальности»

27 февраля 2026 года Пекинский институт искусственного интеллекта общего назначения (BIGAI), Unitree Robotics, Шанхайский университет Цзяотун, Китайский университет науки и технологий и другие учреждения совместно опубликовали на платформе препринтов arXiv статью «OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control», в которой впервые предложили фреймворк OmniXtreme, системно решающий проблему универсальности высокодинамичного управления человекоподобными роботами.

Исследовательская группа указала, что коренная причина неудач традиционных методов в управлении множеством высокодинамичных движений кроется в двух взаимосвязанных узких местах:

Узкое место обучения в симуляции: существующие методы часто используют простые представления стратегической сети, и при столкновении с разнородными целевыми движениями их выразительная способность быстро насыщается с увеличением разнообразия данных. Кроме того, совместное обучение с подкреплением множеству задач усугубляет интерференцию градиентов, что приводит к консервативному усреднению или выборочным неудачам в высокодинамичном поведении.

Узкое место физической выполнимости: даже отличная производительность в симуляции сталкивается с проблемами при переносе на реального робота, поскольку существующее моделирование игнорирует ключевые характеристики приводов, такие как нелинейность крутящий момент-скорость, регенеративная мощность, которые могут вызвать нестабильность выполнения в высокодинамичных движениях.

Достижение 1: Генеративное предобучение на основе потоков — заставить робота «прочесть множество книг»

На первом этапе OmniXtreme использует стратегию генеративного управления на основе потоков (flow-based generative control policy), объединяя высокодинамичные навыки, рассеянные среди различных «экспертных стратегий», в единую «базовую стратегию» с помощью дистилляции знаний.

Исследовательская группа сначала интегрировала несколько высококачественных наборов данных о движениях, включая LAFAN1, AMASS, MimicKit, и переориентировала их на человекоподобного робота Unitree G1. Для этих референсных движений команда обучила серию экспертных стратегий с помощью алгоритма PPO. Затем OmniXtreme использовала алгоритм согласования потоков на основе агрегации наборов данных (DAgger), чтобы объединить поведение этих экспертных стратегий в единую генеративную стратегию на основе согласования потоков.

Ключевое преимущество этого метода заключается в следующем: обучение «полю скоростей» с помощью генеративного моделирования, а не простого отображения действий, позволяет во время вывода генерировать высокоточные непрерывные управляющие действия посредством прямого интегрирования Эйлера, эффективно избегая интерференции градиентов при многозадачном обучении с подкреплением.

Достижение 2: Остаточное дообучение с учетом привода — заставить робота «работать в реальных условиях»

Хотя стратегия согласования потоков, полученная в результате предобучения, показала впечатляющую точность отслеживания в симуляции, нелинейные характеристики моторов в реальном мире часто приводят к значительному снижению высокодинамичных показателей. Для обеспечения плавного переноса «от симуляции к реальности» команда заморозила предобученную базовую стратегию и обучила поверх нее легковесную остаточную стратегию на основе MLP.

Чтобы остаточная стратегия по-настоящему осознала суровость физического мира, команда внедрила в среду обучения три уровня глубокого моделирования:

Агрессивная рандомизация домена: значительно увеличен диапазон параметров, таких как шум начальной позы, амплитуда внешних возмущений, угловая скорость, при одновременном расширении порога завершения в 1.5 раза, предоставляя остаточной стратегии достаточное пространство для исследования.

Регуляризация безопасности привода по мощности: инновационное введение механизма штрафов за механическую мощность, в основном применяемого к коленным суставам, для предотвращения срабатывания защиты от перегрузки по току или теплового отключения аппаратного обеспечения при высокодинамичных движениях.

Ограничения крутящего момента и скорости с учетом привода: реальные рабочие конверты двигателей напрямую интегрированы в симулятор, одновременно точно моделируются внутренние потери на уровне исполнительных механизмов через нелинейные члены трения.

Достижение 3: Прорыв в производительности — общая успешность 91.08% для 24 движений

На реальном роботе Unitree G1 OmniXtreme позволил единой стратегии выполнить 24 высокодинамичных движения, общий показатель успешности в 157 испытаниях составил 91.08%. Среди них:

Категория движения	Успешность
Сальто назад и др.	96.36%
Боевые искусства	93.33%
Брейк-данс	86.36%

В симуляционной среде OmniXtreme напрямую сравнивался с традиционными методами. Столкнувшись с созданным командой набором данных об экстремальных движениях XtremeMotion, ошибка отслеживания традиционных методов значительно возросла, в то время как OmniXtreme сохранил чрезвычайно низкую кинематическую ошибку и очень высокий показатель успешности.

Достижение 4: Валидация стресс-тестом — истинное преодоление компромисса «точность-масштабируемость»

Чтобы проверить, действительно ли система преодолела барьер обобщения, команда разработала прогрессивный стресс-тест. Они постепенно расширяли обучающий набор движений с 10 до 20, а затем до 50, используя фиксированные первые 10 движений для единой оценки.

Результаты эксперимента выявили значительную разницу: с увеличением разнообразия движений базовые модели обучения с подкреплением, обучаемые с нуля, показали серьезное снижение производительности — успешность упала со 100% до 83.3%, а в итоге до 73.9%. В отличие от них, OmniXtreme продемонстрировал удивительную устойчивость: при огромном обучающем наборе из 50 движений успешность отслеживания ключевых движений оставалась стабильной на уровне 93.3%.

Достижение 5: Валидация Scaling Law для масштаба модели

В истории развития искусственного интеллекта увеличение количества параметров модели часто приводило к скачку производительности, но эта закономерность, казалось, не работала в традиционной области управления движением. Команда сравнила производительность моделей разного масштаба (20M, 50M, 70M параметров).

Данные графиков показали, что традиционные MLP-стратегии быстро достигали насыщения производительности при увеличении параметров, с крайне ограниченным улучшением точности отслеживания. В ярком контрасте с этим, генеративные стратегии на основе согласования потоков идеально соответствовали Scaling Law — с увеличением параметров до 70M, точность отслеживания и устойчивость OmniXtreme демонстрировали значительный линейный рост.

Достижение 6: Сквозная задержка вывода всего 10 миллисекунд

В части аппаратного развертывания OmniXtreme продемонстрировал высокую степень инженерной завершенности. Весь конвейер вывода (включая оценку состояния на основе прямой кинематики, базовую стратегию согласования потоков и остаточную стратегию) был глубоко оптимизирован с использованием TensorRT. На бортовой платформе NVIDIA Jetson Orin NX человекоподобного робота Unitree G1 система достигла сквозной задержки вывода около 10 миллисекунд, идеально поддерживая высокочастотное замкнутое управление на 50 Гц.

III. Техническая суть: двухэтапная эволюция от «имитационного обучения» к «экстремальным движениям»

Общая структура OmniXtreme включает три взаимосвязанных этапа:

Этап предобучения: обучение единой базовой стратегии с помощью метода согласования потоков на основе DAgger, агрегирующей разнообразные двигательные априорные знания из нескольких экспертных стратегий, специализирующихся на отдельных движениях.

Этап дообучения: предобученная базовая стратегия замораживается, а легковесная остаточная стратегия оптимизируется в условиях строгих ограничений двигателей, агрессивной рандомизации домена и регуляризации безопасности по мощности, чтобы преодолеть динамический разрыв между симуляционной средой и реальным физическим миром.

Этап бортового развертывания: весь процесс вывода оптимизирован для выполнения в реальном времени и полностью на бортовом компьютере робота.

Хуан Сыюань, директор центра воплощенной робототехники Пекинского института искусственного интеллекта общего назначения, сообщил в социальных сетях: «Мы потратили целый год на глубокое изучение барьеров между универсальным отслеживанием и экстремальным физическим поведением. Протестировав десятки G1, мы в итоге нашли узкие места в обучении и физической исполнимости».

IV. Перспективы применения: от «экстремальных движений» к «реальным сценариям»

1. Заложить основу для приложений в сложных сценариях

Многие считают, что такие движения, как сальто назад или брейк-данс, не имеют отношения к практическим сценариям. По этому поводу исследователь BIGAI Цзя Баосюн дал глубокое объяснение: «С научной точки зрения, если робот может выполнять эти экстремальные движения, он обычно также способен справляться с различными рабочими сценариями, доступными человеку. Это эквивалентно сначала «укрепить тело» — если робот может освоить управление человеческими экстремальными движениями, то выполнение задач в промышленных, сервисных и других сценариях, наоборот, станет проще».

2. Промышленное производство и инспекция

В настоящее время соответствующие технологии уже проходят испытания в таких сценариях, как инспекция электросетей и автомобилестроение. Высокодинамичные способности балансировки и устойчивости к помехам, реализованные в рамках OmniXtreme, закладывают основу для стабильной работы роботов в сложных промышленных условиях.

3. Развитие отрасли через экосистему с открытым исходным кодом

В настоящее время соответствующая исследовательская статья, контрольные точки модели и код были официально опубликованы с открытым исходным кодом. Исследовательская группа также сообщила, что в будущем будут постепенно открыты дополнительные ресурсы, включая код для обучения и вывода базовой стратегии согласования потоков, код для остаточного дообучения и вывода, а также код для реального развертывания на C++. Это означает, что исследователи и разработчики по всему миру могут на основе фреймворка OmniXtreme обучать своих человекоподобных роботов различным высокодинамичным двигательным навыкам, что значительно ускорит развитие области управления движением человекоподобных роботов.

V. Отраслевое значение: смена парадигмы от «единичного навыка» к «универсальной способности»

Глубокая ценность этого исследования заключается в переопределении границ возможностей управления движением человекоподобных роботов. В прошлом человекоподобные роботы либо «специализировались на одном», либо «были посредственны во всем». OmniXtreme впервые доказал: высокая точность и обширная библиотека движений могут сочетаться.

Как сказано в статье: «OmniXtreme, благодаря развязанной архитектуре генеративного предобучения и дообучения с учетом привода, позволяет единой стратегии как масштабируемо изучать разнообразные навыки, так и надежно развертываться на физическом аппаратном обеспечении, эффективно преодолевая компромисс между точностью и масштабируемостью в традиционном высокодинамичном управлении человекоподобными роботами».

Когда человекоподобные роботы переходят от «воспроизведения навыков» к «универсальным способностям», возможно, до их истинного вхождения в промышленные, сервисные и домашние сценарии остался всего один последний «прорыв».

Источник: Пекинский институт искусственного интеллекта общего назначения (BIGAI), Unitree Robotics, Шанхайский университет Цзяотун, Китайский университет науки и технологий; Авторы: Первый автор — Ван Юньшэнь (совместная подготовка BIGAI-Шанхайский университет Цзяотун), Чжу Шаохан (совместная подготовка BIGAI-Китайский университет науки и технологий); Авторы-корреспонденты — Цзя Баосюн, Хуан Сыюань (Пекинский институт искусственного интеллекта общего назначения); Среди авторов — основатель Unitree Robotics Ван Синсин; Название: OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control; Опубликовано: arXiv препринт (27 февраля 2026 года).

Китай

Традиционные отрасли Производство высокотехнологичного оборудования

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта：news@wedoany.com

Предыдущий：Кластеры титановых полигидридов позволяют осуществлять селективное редактирование каркаса молекулы пиридина

Следующий：Голландские ученые разработали новый антибиотик EVG7, снижающий риск рецидива инфекции Clostridioides difficile