OmniXtreme: преодоление «барьера универсальности» в высокодинамичном управлении человекоподобными роботами, единая стратегия освоила 24 экстремальных движения с успешностью свыше 91% Введение в технологии

OmniXtreme: преодоление «барьера универсальности» в высокодинамичном управлении человекоподобными роботами, единая стратегия освоила 24 экстремальных движения с успешностью свыше 91%

2026-03-14 17:42

В избр.

Заставить робота сделать сальто назад — не так уж сложно. Настоящий вызов — заставить одного и того же робота выполнять и сальто назад, и пьяный кулак, и брейк-данс, и «вертушку Томаса». Исследователи из Пекинского института искусственного интеллекта общего назначения (BIGAI) совместно с Unitree Robotics, Шанхайским университетом Цзяотун, Китайским университетом науки и технологий и другими учреждениями впервые предложили фреймворк OmniXtreme, позволивший одному роботу освоить десятки высокодинамичных экстремальных движений. Общий уровень успешности при развертывании в реальном мире достиг 91,08%, что полностью разрушило дилемму «точность-масштабируемость» в управлении движением человекоподобных роботов.

I. Дилемма «однобокого» человекоподобного робота

От «шатающегося» робота, танцующего янгэ в 2024 году, до плавных сальто назад, боковых ударов, владения нунчаками и пьяного кулака в шоу «УБОТ» на Весеннем фестивальном гала-концерте 2026 года — двигательные способности человекоподобных роботов за последние два года пережили стремительную эволюцию. Однако фундаментальная проблема, долгое время мучившая исследователей, остается нерешенной: дилемма «точность-масштабируемость».

Проще говоря, современные роботы похожи на «однобоких учеников» — они могут стать чемпионами в отдельной дисциплине, например, идеально выполнить сальто назад. Но как только вы пытаетесь научить одного и того же робота десяткам движений разного стиля и сложной динамики, эффективность обучения резко падает: контроллер становится консервативным и посредственным, часто терпя неудачу в самых сложных движениях.

Основатель Unitree Robotics Ван Синсин на Всемирной конференции по робототехнике в 2025 году откровенно признал: «В области управления движением роботов существует проблема закона масштабирования RL (RL Scaling Law). Например, если мне нужно обучить новому танцу, каждый раз при добавлении нового движения приходится начинать обучение с нуля». Он выразил надежду, что в будущем удастся реализовать непрерывное накопление навыков и трансферное обучение, позволяя роботам постоянно расширять новые умения на основе уже имеющихся способностей.

II. Научно-технические достижения: двухэтапный обучающий фреймворк преодолевает «барьер универсальности»

27 февраля 2026 года исследователи из Пекинского института искусственного интеллекта общего назначения (BIGAI), Unitree Robotics, Шанхайского университета Цзяотун, Китайского университета науки и технологий и других учреждений совместно опубликовали на платформе препринтов arXiv статью «OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control», в которой впервые предложили фреймворк OmniXtreme, системно решающий проблему универсальности высокодинамичного управления человекоподобными роботами.

Исследовательская группа проанализировала, что коренная причина неудач традиционных методов в управлении множеством высокодинамичных движений заключается в двух взаимосвязанных узких местах:

Обучающее узкое место в симуляции: существующие методы часто используют простые представления стратегических сетей, чья выразительная способность быстро насыщается с ростом разнообразия данных при столкновении с гетерогенными целевыми движениями; одновременно, единое обучение множеству задач с помощью обучения с подкреплением усугубляет интерференцию градиентов, приводя к консервативному усреднению или выборочным неудачам в высокодинамичном поведении.

Узкое место физической реализуемости: даже при отличных результатах в симуляции, перенос на реального робота остается сложной задачей, поскольку существующее моделирование игнорирует ключевые характеристики приводов, такие как нелинейность крутящий момент-скорость, регенеративная мощность и т.д., что может вызвать нестабильность исполнения при высокодинамичных движениях.

Достижение 1: Генеративное предобучение на основе потоков — заставить робота «начитаться»

Первый этап OmniXtreme использует стратегию генеративного управления на основе потоков (flow-based generative control policy), которая путем дистилляции знаний объединяет высокодинамичные навыки, разбросанные по различным «экспертным стратегиям», в единую «базовую стратегию».

Исследовательская группа сначала интегрировала несколько высококачественных наборов данных о движениях, таких как LAFAN1, AMASS, MimicKit, и перепроецировала их на человекоподобного робота Unitree G1. Для этих референсных движений команда обучила серию экспертных стратегий с использованием алгоритма PPO. Затем OmniXtreme применил алгоритм сопоставления потоков на основе агрегирования данных (DAgger), чтобы объединить поведение этих экспертных стратегий в единую генеративную стратегию на основе сопоставления потоков.

Ключевое преимущество этого метода заключается в следующем: обучение «полю скоростей» с помощью генеративного моделирования, а не простого отображения действий, позволяет генерировать высокоточные непрерывные управляющие действия через прямое интегрирование Эйлера во время вывода, эффективно избегая интерференции градиентов, характерной для традиционного обучения с подкреплением в многозадачных сценариях.

Достижение 2: Дообучение с остаточной стратегией, учитывающей приводы — заставить робота «работать по-настоящему»

Хотя предобученная стратегия сопоставления потоков демонстрирует впечатляющую точность отслеживания в симуляции, нелинейные характеристики двигателей в реальном мире часто значительно ухудшают высокодинамичные показатели. Для обеспечения плавного переноса «из симуляции в реальность» команда заморозила предобученную базовую стратегию и поверх нее обучила легковесную остаточную стратегию на основе MLP.

Чтобы остаточная стратегия по-настоящему поняла суровость физического мира, команда внедрила трехуровневое глубокое моделирование в обучающую среду:

Агрессивная рандомизация домена: значительно увеличен диапазон параметров, таких как шум начальной позы, амплитуда внешних возмущений, угловая скорость и т.д., одновременно порог завершения был ослаблен в 1,5 раза, предоставив остаточной стратегии достаточное пространство для исследования.

Регуляризация безопасности привода по мощности: инновационное введение механизма штрафов за механическую мощность, с акцентом на коленные суставы, для предотвращения срабатывания аппаратной защиты от перегрузки по току или теплового отключения при высокодинамичных движениях.

Ограничения крутящего момента и скорости с учетом приводов: реальные рабочие конверты двигателей напрямую интегрированы в симулятор, одновременно точно моделируются внутренние потери на уровне исполнительных механизмов через нелинейные члены трения.

Достижение 3: Прорыв в производительности — общий уровень успешности 91,08% для 24 движений

На реальном роботе Unitree G1 единая стратегия OmniXtreme выполнила 24 высокодинамичных движения, общий уровень успешности по 157 испытаниям составил 91,08%. Среди них:

Категория движений	Уровень успешности
Сальто назад и др.	96,36%
Боевые искусства	93,33%
Брейк-данс	86,36%

В симулированной среде OmniXtreme напрямую сравнивался с традиционными методами. Перед созданным командой набором данных об экстремальных движениях XtremeMotion, ошибка отслеживания традиционных методов значительно возрастала, в то время как OmniXtreme по-прежнему поддерживал чрезвычайно низкую кинематическую ошибку и очень высокий уровень успешности.

Достижение 4: Проверка стресс-тестами — действительно преодолена дилемма «точность-масштабируемость»

Чтобы проверить, действительно ли система преодолела барьер обобщения, команда разработала постепенные стресс-тесты. Они расширяли обучающий набор движений с 10 до 20, и в конечном итоге до 50, используя фиксированный набор из первых 10 движений для единой оценки.

Результаты эксперимента выявили значительную разницу: с увеличением разнообразия движений, базовые модели обучения с подкреплением, обучаемые с нуля, показали серьезную деградацию производительности — уровень успешности упал со 100% до 83,3% и, в конечном итоге, до 73,9%. В отличие от них, OmniXtreme продемонстрировал удивительную устойчивость: даже при огромном обучающем наборе из 50 движений, уровень успешности отслеживания ключевых движений оставался стабильным на уровне 93,3%.

Достижение 5: Валидация закона масштабирования (Scaling Law) для размера модели

В истории развития искусственного интеллекта увеличение количества параметров модели часто приводило к скачку производительности, но этот закон, казалось, не работал в традиционной области управления движением. Команда сравнила производительность моделей разного размера (20M, 50M, 70M параметров).

Данные графиков показали, что традиционные MLP-стратегии быстро достигали насыщения производительности при увеличении параметров, с крайне ограниченным улучшением точности отслеживания. В ярком контрасте с этим, генеративные стратегии на основе сопоставления потоков идеально соответствовали закону масштабирования — по мере увеличения параметров до 70M, точность отслеживания и надежность OmniXtreme демонстрировали значительный линейный рост.

Достижение 6: Сквозная задержка вывода всего 10 миллисекунд

В части аппаратного развертывания OmniXtreme продемонстрировал высокую степень инженерной завершенности. Весь конвейер вывода (включая оценку состояния на основе прямой кинематики, базовую стратегию сопоставления потоков и остаточную стратегию) был глубоко оптимизирован с использованием TensorRT. На бортовой платформе NVIDIA Jetson Orin NX человекоподобного робота Unitree G1 система достигла сквозной задержки вывода около 10 миллисекунд, что идеально поддерживает высокочастотное замкнутое управление на 50 Гц.

III. Техническая суть: двухэтапная эволюция от «имитационного обучения» к «экстремальным движениям»

Общая структура OmniXtreme состоит из трех взаимосвязанных этапов:

Этап предобучения: обучение единой базовой стратегии с помощью метода сопоставления потоков на основе DAgger, агрегирующей разнообразные двигательные априорные знания из нескольких экспертных стратегий, сфокусированных на отдельных движениях.

Этап дообучения: предобученная базовая стратегия замораживается, а легковесная остаточная стратегия оптимизируется в условиях строгих ограничений двигателей, агрессивной рандомизации домена и регуляризации безопасности по мощности, чтобы преодолеть динамический разрыв между симулированной средой и реальным физическим миром.

Этап бортового развертывания: весь процесс вывода оптимизирован для выполнения в реальном времени и полностью на бортовом компьютере робота.

Хуан Сыюань, директор Центра воплощенных роботов Пекинского института искусственного интеллекта общего назначения, поделился в социальных сетях: «Мы потратили целый год на глубокое изучение барьеров между универсальным отслеживанием и экстремальным физическим поведением. Протестировав десятки роботов G1, мы наконец нашли узкие места в обучении и физической исполнимости».

IV. Перспективы применения: от «экстремальных движений» к «реальным сценариям»

1. Заложить основу для применения в сложных сценариях

Многие считают, что движения вроде сальто назад или брейк-данса не имеют отношения к практическим сценариям. На это исследователь BIGAI Цзя Баосюн дал глубокое объяснение: «С научной точки зрения, если робот может выполнять эти экстремальные движения, обычно он также способен справляться с различными рабочими сценариями, доступными человеку. Это эквивалентно сначала «укреплению здоровья» — если робот овладеет способностью управления человеческими экстремальными движениями, то выполнение задач в промышленных, сервисных и других сценариях станет для него легче».

2. Промышленное производство и инспекция

В настоящее время соответствующие технологии уже проходят тестирование в таких сценариях, как инспекция электросетей и автомобилестроение. Высокодинамичные способности балансировки и устойчивости к помехам, реализованные в рамках OmniXtreme, обеспечивают основу для стабильной работы роботов в сложных промышленных условиях.

3. Развитие отрасли через открытую экосистему

В настоящее время соответствующая исследовательская статья, контрольные точки моделей и код были официально открыты. Исследовательская группа также сообщила, что в будущем будут постепенно опубликованы дополнительные ресурсы, включая код для обучения и вывода базовой стратегии сопоставления потоков, код для остаточного дообучения и вывода, а также код для реального развертывания на C++. Это означает, что исследователи и разработчики по всему миру могут на основе фреймворка OmniXtreme обучать своих человекоподобных роботов различным высокодинамичным двигательным навыкам, что значительно ускорит развитие области управления движением человекоподобных роботов.

V. Отраслевое значение: смена парадигмы от «единичного навыка» к «универсальной способности»

Глубокая ценность этого исследования заключается в переопределении границ возможностей управления движением человекоподобных роботов. Раньше человекоподобные роботы либо «специализировались на одном», либо «знали всё понемногу». OmniXtreme впервые доказал: высокая точность и большая библиотека движений могут сочетаться.

Как говорится в статье: «OmniXtreme, благодаря декомпозированной конструкции генеративного предобучения и дообучения с учетом приводов, позволяет единой стратегии как масштабируемо изучать разнообразные навыки, так и надежно развертываться на физическом оборудовании, эффективно преодолевая дилемму точности-масштабируемости в традиционном высокодинамичном управлении человекоподобными роботами».

Когда человекоподобные роботы перейдут от «воспроизведения навыков» к «универсальным способностям», возможно, до их реального вхождения в промышленные, сервисные и домашние сценарии останется всего один последний «прорыв».

Источник: Пекинский институт искусственного интеллекта общего назначения (BIGAI), Unitree Robotics, Шанхайский университет Цзяотун, Китайский университет науки и технологий; Авторы: первый автор — Ван Юньшэнь (совместная подготовка BIGAI-Шанхайский университет Цзяотун), Чжу Шаохан (совместная подготовка BIGAI-Китайский университет науки и технологий); Авторы для переписки — Цзя Баосюн, Хуан Сыюань (Пекинский институт искусственного интеллекта общего назначения); Среди авторов — основатель Unitree Robotics Ван Синсин; Название: OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control; Опубликовано: препринт arXiv (27 февраля 2026 г.).

Китай

Традиционные отрасли Производство высокотехнологичного оборудования

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта：news@wedoany.com

Предыдущий：Исследование Чикагского университета раскрывает новый механизм катионного обмена в нанокубах

Следующий：Американские исследователи разработали новую молекулу, потенциально пригодную для лечения тройного негативного рака молочной железы