Репортаж от Wedoany,Компания Nvidia представила новый набор программных компонентов и многократно используемых рабочих процессов для агентов компьютерного зрения, предназначенных для поддержки разработки, моделирования и развертывания моделей на периферии и в облаке.
Набор инструментов, получивший название Metropolis Agent Skills and Blueprints, включает рабочие процессы для генерации синтетических данных, улучшения видеоданных, тонкой настройки моделей, а также поиска и обобщения видео. Разработчики могут комбинировать эти рабочие процессы с платформой Omniverse на базе OpenUSD для моделирования и создания цифровых двойников, а также с платформой Metropolis для создания и запуска видео-приложений на основе ИИ.
Агенты компьютерного зрения развертываются на заводах, складах, в транспортных сетях и городской инфраструктуре, где операторы стремятся преобразовать видеопотоки с камер в автоматические оповещения, отчеты и мониторинг процессов. Nvidia позиционирует новое программное обеспечение как ответ на распространенную проблему периферийных вычислений: огромные объемы данных генерируются рядом с камерами и датчиками, но большая их часть так и не преобразуется в практические действия.
Nvidia выделяет три основных препятствия, с которыми сталкиваются организации при создании таких систем: нехватка репрезентативных обучающих данных, особенно для редких дефектов или аномальных событий; необходимость специализированной работы по тонкой настройке моделей после выявления разрыва в производительности; а также инженерные усилия, требуемые для интеграции видеоконвейеров, моделей, метаданных, поиска, оповещений и системной интеграции в работающее приложение.
В производственном секторе синтетические данные помогают решить проблему нехватки реальных изображений дефектов. Nvidia упоминает работу компании Roboflow, которая интегрирует навыки генерации изображений дефектов Nvidia и мировую базовую модель Cosmos в свою платформу для обслуживания клиентов, включая Corning. По данным Nvidia, в ходе бенчмаркинга с инженерной группой Corning по производству оптоволокна было обнаружено, что модель, обученная на восьми реальных изображениях дефектов в сочетании с синтетическими данными, сгенерированными с помощью навыка генерации изображений дефектов, достигла средней точности 95% и идеальной полноты для наиболее сложных категорий дефектов. Эта модель превзошла базовую модель, обученную только на реальных данных, и сократила проект, который, как ожидалось, займет несколько кварталов, до нескольких дней. Этот пример подчеркивает основную коммерческую ценность синтетических данных в промышленном контроле. Производственные линии, способные предотвращать большинство дефектов, могут испытывать трудности со сбором достаточного количества примеров отказов для обучения систем следующего поколения, что приводит к слабой производительности моделей при обнаружении необычных, но важных аномалий.
В сфере городского управления Nvidia указывает на рыночный потенциал взаимосвязанных видеорабочих процессов. Linker Vision использует план поиска и обобщения видео Metropolis от Nvidia для развертывания агентов видеоанализа в городской инфраструктуре, одновременно применяя цифровые двойники Omniverse на базе OpenUSD для моделирования трафика, погоды, чрезвычайных ситуаций и изменений инфраструктуры. Система объединяет такие задачи, как поиск, обобщение, оповещение, составление отчетов и управление потоками, в исполняемые агентами рабочие процессы. Linker Vision также использует Nvidia Cosmos для улучшения видеоданных и Nvidia TAO для тонкой настройки моделей. В Гаосюне, по данным Nvidia, Linker Vision сократила объем разработки на 85% с помощью плана поиска и обобщения видео, а время реагирования на инциденты уменьшилось до 80%. Компания добавляет, что новое расширение группы AI-GRID включает план NemoClaw для безопасного ИИ-агента в городских и транспортных средах.
В сфере заводских операций еще один пример исходит из мониторинга промышленных рабочих процессов. По данным Nvidia, развернутый на производственных линиях Foxconn агент DeepHow для проверки соблюдения стандартных операционных процедур в реальном времени использует план поиска и обобщения видео Metropolis для поиска, обобщения и анализа видео в рабочей среде. Цель — оценить правильность выполнения работы, сравнить действия со стандартными процедурами и выявить проблемы до того, как дефекты перейдут на следующий этап. Nvidia утверждает, что Cosmos помогает системе интерпретировать последовательности человеческих действий в контексте, включая определение того, выполняются ли сборочные шаги в правильном порядке. По данным Nvidia, на производственной линии серверов Nvidia GB300 система DeepHow повысила процент выхода с первого раза на 3%, достигла 99% точности на уровне задач в понимании ключевых этапов процедур и сократила избыточную работу за счет раннего выявления проблем.
Более широкий рыночный контекст этого релиза — это смещение обработки ИИ на периферию, где данные генерируются на месте, а не передаются обратно в централизованную инфраструктуру. Nvidia ссылается на прогноз Gartner, согласно которому к 2028 году более двух третей корпоративных данных будут создаваться и обрабатываться за пределами центров обработки данных или облака, а к 2029 году более двух третей мировых предприятий развернут периферийный ИИ, по сравнению с всего 10% в 2025 году. Тем не менее, большее количество периферийных данных не автоматически приводит к более полезным выводам. Модели, работающие рядом с камерами и машинами, должны функционировать в условиях ограничений по задержке, энергопотреблению, стоимости и подключению, одновременно адаптируясь к условиям каждого конкретного объекта. OpenUSD находится в центре подхода Nvidia, поскольку он предоставляет универсальный способ описания и повторного использования 3D-сцен. Библиотеки Omniverse помогают командам создавать рабочие процессы моделирования, синтетических данных и цифровых двойников, расширяя тестирование в различных условиях, таких как освещение, погода, транспортные потоки, углы обзора камер, заслонения и редкие события.
Новый набор включает навык генерации изображений дефектов, навык улучшения видеоданных, навык TAO для тонкой настройки моделей, а также навык поиска и обобщения видео для оповещений, отчетов и управления потоками. Цель состоит в том, чтобы разработчикам не приходилось каждый раз перестраивать каждую часть рабочего процесса с нуля при каждом развертывании. Эти многократно используемые рабочие процессы призваны помочь разработчикам генерировать данные, улучшать модели и развертывать агенты компьютерного зрения в промышленности, на транспорте и в городском управлении.









