Репортаж от Wedoany,Робототехника стала предметом отраслевых споров на Пекинской конференции Zhiyuan в июне. За последний год, по мере роста интереса к робототехнике, в отрасли активно обсуждался вопрос о том, следует ли роботам следовать пути VLA (Vision-Language-Action) или пути моделей мира. Доктор Го Яньдун, основатель и генеральный директор Zhi², в своей вступительной речи на форуме CEO в области воплощённого интеллекта дал чёткий ответ: модель мира не является конкурирующим направлением для VLA, а скорее его ключевым компонентом; после интеграции модели мира и VLA нейроморфная архитектура станет важным направлением эволюции мозга роботов следующего поколения.

Этот вывод основан на трёхлетней технологической стратегии Zhi². Го Яньдун считает, что с точки зрения эволюции жизни способность к действию не возникает изолированно; сначала живые существа воспринимают и понимают окружающую среду, а затем действуют. Он переопределил VLA, рассматривая его как общее название для сквозных архитектур моделей, управляемых большими данными и объединяющих несколько модальностей, и утверждает, что модель мира и VLA не имеют принципиальных различий и не являются взаимозаменяемыми. Модель мира решает задачу плотного, включающего временное измерение 4D-прогнозирования физической среды, что является частью пространственного восприятия VLA и помогает повысить возможности мозга робота. Го Яньдун привёл пример, объясняющий необходимость их интеграции: для заваривания чая сначала нужно взять пакетик, затем налить воду — такие логические рассуждения зависят от языковой модели, в то время как модель мира лучше справляется с краткосрочными прогнозами, например, что чашка, стоящая у края стола, может упасть. Объединение обеих моделей позволяет роботу обладать как способностью к краткосрочному физическому прогнозированию, так и к долгосрочному планированию задач. Zhi² также использует модель мира для генерации граничных данных, которые трудно собрать в реальной среде, для дополнения обучения VLA.
Основываясь на этом выводе, в ноябре 2025 года Zhi² совместно с Пекинским университетом представила новую архитектуру Video2Act, объединяющую модель мира, впервые реализовав парадигму модели робота «сначала прогнозирование, затем действие». Video2Act — это не традиционная модель генерации видео, а архитектура VLA, интегрированная с 4D-моделью мира. Благодаря моделированию плотной пространственной информации и непрерывному вводу временной последовательности действий, робот может заранее понимать будущие изменения состояния и преобразовывать прогностические способности в решения о действиях. В сторонних тестах Video2Act показал улучшение производительности более чем на 30% по сравнению с самыми передовыми аналогами из Кремниевой долины. В авторитетном обзоре моделей мира «World Model for Robot Learning: A Comprehensive Survey», подготовленном ведущими мировыми учёными, включая члена Королевского общества и Королевской инженерной академии, всемирно известного исследователя в области искусственного интеллекта Филипа Торра и основоположника обучения с подкреплением Питера Аббила, Video2Act был отмечен как репрезентативный результат направления «интеграция модели мира и VLA».

После решения проблемы интеграции модели мира и VLA, Zhi² сосредоточилась на задаче обеспечения стабильных и эффективных действий робота, подобных человеческим. На конференции Zhiyuan Го Яньдун представил новейшую нейроморфную систему воплощённого интеллекта NeuroVLA, разработанную Zhi². Это единственная на сегодняшний день система воплощённого интеллекта, которая одновременно обладает тремя типами биомоторных способностей: активным восприятием, самовосстановлением после сбоев и временной памятью. Го Яньдун отметил, что в существующих архитектурах VLA роботы, хотя и обладают сильными способностями к пониманию, всё ещё сталкиваются с проблемами в реальных сложных средах, такими как медленная реакция, дрожание движений и высокое энергопотребление. Причина в том, что большинство роботов полагаются на единую большую модель, которая одновременно обрабатывает восприятие, рассуждение и управление.

Вдохновляясь механизмами человеческого мозга, где кора отвечает за мышление, мозжечок — за координацию движений, а спинной мозг — за рефлексы, Zhi² создала первую в мире трёхуровневую нейроморфную архитектуру «кора — мозжечок — спинной мозг» под названием NeuroVLA. В этой архитектуре кора отвечает за семантическое понимание и планирование задач, мозжечок — за высокочастотную координацию движений и динамическую коррекцию, а спинной мозг — за выполнение движений на миллисекундном уровне и рефлексы безопасности. Такая конструкция повышает стабильность, оперативность и энергоэффективность робота в реальном физическом мире на архитектурном уровне. Экспериментальные результаты показали, что NeuroVLA снижает дрожание движений робота более чем на 75%, обеспечивает рефлекторную реакцию в течение 20 миллисекунд после столкновения и значительно снижает энергопотребление системы.

От сквозного VLA до Video2Act и затем до NeuroVLA — Zhi² на протяжении последних трёх лет последовательно внедряет системные инновации, сосредоточенные на мозге робота. Эта траектория развития соответствует единому направлению: дать роботу «мозг», более похожий на человеческий.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









