Репортаж от Wedoany,12 июня в Пекине состоялась восьмая Пекинская конференция по искусственному интеллекту (BAAI Conference), на которой Институт интеллекта (BAAI) представил универсальную базовую модель мира Wujie·Physis-v0.1. Эта модель предназначена для моделирования реального физического мира, с акцентом на физическую корректность, прослеживаемость причинно-следственных связей действий, долгосрочную согласованность и способность к универсальной генерализации. Она может адаптироваться к реальным физическим прикладным сценариям, таким как робототехника, генерация видео, игры и промышленность, обеспечивая базовую поддержку для воплощённого интеллекта и промышленных интеллектуальных систем.
Этот релиз выводит мировые модели на более фундаментальный уровень. Большие языковые модели преуспевают в понимании текста и рассуждениях, мультимодальные модели дополнительно связывают изображения, речь и видео, но для робототехники, промышленного моделирования, автономного вождения, интеллектуального производства и сложных пространственных задач требуется не просто «понимать изображение», но и понимать, как движутся объекты, как действия приводят к результатам и соответствуют ли изменения окружающей среды физическим законам. Позиционирование Wujie·Physis-v0.1 заключается в расширении возможностей модели от генерации цифрового контента до прогнозирования физического мира и взаимодействия с ним.
Сложность мировых моделей заключается в непрерывности. Видеофрагмент может выглядеть чётким, но если движение объектов не соответствует гравитации, отношения столкновений противоречивы или причинно-следственные связи действий не прослеживаются, то такая модель не сможет обслуживать реальные сценарии робототехники и промышленности. Для воплощённого интеллекта роботу перед выполнением задачи необходимо оценить, к каким последствиям приведут его действия; для промышленных приложений модель должна обеспечивать согласованные рассуждения в производственных процессах, работе оборудования, изменениях материалов и пространственных ограничениях. Physis-v0.1 делает акцент на долгосрочной согласованности и прослеживаемости причинно-следственных связей, что указывает на то, что цель модели — не просто генерировать более реалистичные изображения, а поддерживать проверяемые, выполнимые и переносимые физические рассуждения.
Среди других результатов, одновременно представленных Институтом интеллекта (BAAI), — мультимодальная нейронаучная большая модель Wujie·Brainμ1.0, а также прогресс в области агентов, базовой программно-аппаратной экосистемы и экосистемы с открытым исходным кодом. Это придаёт системе «Wujie» более чёткую многопрофильную структуру: одно направление — к физическому миру и воплощённому интеллекту, другое — к нейронауке и наукам о жизни, а третье — через агентов и программно-аппаратную экосистему поддерживает расширение приложений. Для фундаментальных исследовательских институтов в области искусственного интеллекта такая комбинация означает, что фокус исследований смещается с возможностей отдельных моделей на системное построение моделей, данных, агентов, платформ и экосистем с открытым исходным кодом.
Physis-v0.1 особенно важна для индустрии робототехники. В настоящее время гуманоидные роботы и мобильные манипуляционные роботы уже могут выполнять такие задачи, как захват, перемещение, патрулирование и сбор товаров в аптеках, но основным ограничением для масштабного внедрения является долгосрочная стабильность и способность к генерализации в сложных средах. Роботы не могут полагаться только на заранее заданные программы для действий в фиксированных сценариях; им необходимо понимать взаимосвязи между столами, стеллажами, инструментами, дверями, жидкостями, гибкими объектами и действиями человека. Если универсальная мировая модель сможет обеспечить более надёжные возможности физического прогнозирования, это поможет роботам сократить затраты на пробные ошибки при обучении, моделировании, планировании задач и восстановлении после сбоев.
В промышленной сфере мировые модели также могут стать новой основой для цифровых двойников и интеллектуального производства. Традиционное промышленное моделирование обычно опирается на чёткие правила, параметры и инженерные модели, подходящие для конкретного оборудования или процессов, но их способность к переносу между сценариями ограничена. Если универсальная базовая мировая модель сможет изучать общие закономерности в различных физических системах, в будущем её можно будет использовать для планирования производственных линий, прогнозирования состояния оборудования, оптимизации технологических параметров, понимания промышленных видео и прогнозирования рисков безопасности. Для производственных предприятий ценность такой модели заключается не просто в «генерации изображений», а в помощи системе заранее определить, к каким последствиям приведёт то или иное действие, процесс или изменение окружающей среды.
Сценарии игр и генерации видео предоставляют ещё один путь для проверки. Высококачественная генерация контента требует реалистичности изображения, но более продвинутая генерация требует согласованности физических процессов, например, непрерывной согласованности движений персонажей, столкновений объектов, изменений света и тени, течения жидкостей, механических движений и пространственных отношений. Если Physis-v0.1 сможет поддерживать физическую правдоподобность в этих сценариях, это позволит продвинуть производство контента от генерации коротких фрагментов к генерации интерактивных, управляемых и постоянно эволюционирующих виртуальных миров. Это также позволит мировой модели одновременно обслуживать индустрию цифрового контента и системы обучения воплощённого интеллекта.
Этот релиз также имеет значение для экосистемы с открытым исходным кодом. Институт интеллекта (BAAI) долгое время продвигает строительство вокруг больших моделей, наборов данных, систем оценки и базовых технологий с открытым исходным кодом. Если универсальная мировая модель будет интегрирована с открытыми данными, платформами оценки, фреймворками агентов и базовой программно-аппаратной экосистемой, это поможет снизить порог входа для университетов, исследовательских институтов и промышленных команд в исследования мировых моделей. Для китайской AI-индустрии прорыв в базовых моделях требует усилий ведущих команд, а также открытой экосистемы, позволяющей большему числу разработчиков формировать прикладные проверки в области робототехники, промышленности, научных исследований и генерации контента.
Последующие ключевые моменты в основном касаются трёх аспектов: во-первых, будет ли Wujie·Physis-v0.1 предоставлять открытый доступ к модели, данным, интерфейсам или инструментам оценки, чтобы внешние команды могли проверить её физическую согласованность и способность к генерализации; во-вторых, сформируются ли воспроизводимые кейсы пилотных применений в таких сценариях, как робототехника, промышленность, игры и генерация видео; в-третьих, сможет ли нейронаучная модель Wujie·Brainμ1.0 установить более глубокую связь с системой мировых моделей, способствуя переходу AI от языкового и визуального интеллекта к междисциплинарным исследованиям физического мира и наук о жизни. Если эти направления будут последовательно развиваться, данный релиз Института интеллекта (BAAI) станет не просто обновлением модели, а, возможно, важной вехой в построении китайской универсальной мировой модели и базовой технологической системы воплощённого интеллекта.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









