Nvidia выпускает промышленные ИИ-агенты для компьютерного зрения_Глобальные новости

Nvidia выпускает промышленные ИИ-агенты для компьютерного зрения

2026-07-02 10:02

В избр.

Репортаж от Wedoany，Компания Nvidia представила новый набор программных компонентов и многократно используемых рабочих процессов для агентов компьютерного зрения, предназначенных для поддержки разработки, моделирования и развертывания моделей на периферии и в облаке.

Набор инструментов, получивший название Metropolis Agent Skills and Blueprints, включает рабочие процессы для генерации синтетических данных, улучшения видеоданных, тонкой настройки моделей, а также поиска и обобщения видео. Разработчики могут комбинировать эти рабочие процессы с платформой Omniverse на базе OpenUSD для моделирования и создания цифровых двойников, а также с платформой Metropolis для создания и запуска видео-приложений на основе ИИ.

Агенты компьютерного зрения развертываются на заводах, складах, в транспортных сетях и городской инфраструктуре, где операторы стремятся преобразовать видеопотоки с камер в автоматические оповещения, отчеты и мониторинг процессов. Nvidia позиционирует новое программное обеспечение как ответ на распространенную проблему периферийных вычислений: огромные объемы данных генерируются рядом с камерами и датчиками, но большая их часть так и не преобразуется в практические действия.

Nvidia выделяет три основных препятствия, с которыми сталкиваются организации при создании таких систем: нехватка репрезентативных обучающих данных, особенно для редких дефектов или аномальных событий; необходимость специализированной работы по тонкой настройке моделей после выявления разрыва в производительности; а также инженерные усилия, требуемые для интеграции видеоконвейеров, моделей, метаданных, поиска, оповещений и системной интеграции в работающее приложение.

В производственном секторе синтетические данные помогают решить проблему нехватки реальных изображений дефектов. Nvidia упоминает работу компании Roboflow, которая интегрирует навыки генерации изображений дефектов Nvidia и мировую базовую модель Cosmos в свою платформу для обслуживания клиентов, включая Corning. По данным Nvidia, в ходе бенчмаркинга с инженерной группой Corning по производству оптоволокна было обнаружено, что модель, обученная на восьми реальных изображениях дефектов в сочетании с синтетическими данными, сгенерированными с помощью навыка генерации изображений дефектов, достигла средней точности 95% и идеальной полноты для наиболее сложных категорий дефектов. Эта модель превзошла базовую модель, обученную только на реальных данных, и сократила проект, который, как ожидалось, займет несколько кварталов, до нескольких дней. Этот пример подчеркивает основную коммерческую ценность синтетических данных в промышленном контроле. Производственные линии, способные предотвращать большинство дефектов, могут испытывать трудности со сбором достаточного количества примеров отказов для обучения систем следующего поколения, что приводит к слабой производительности моделей при обнаружении необычных, но важных аномалий.

В сфере городского управления Nvidia указывает на рыночный потенциал взаимосвязанных видеорабочих процессов. Linker Vision использует план поиска и обобщения видео Metropolis от Nvidia для развертывания агентов видеоанализа в городской инфраструктуре, одновременно применяя цифровые двойники Omniverse на базе OpenUSD для моделирования трафика, погоды, чрезвычайных ситуаций и изменений инфраструктуры. Система объединяет такие задачи, как поиск, обобщение, оповещение, составление отчетов и управление потоками, в исполняемые агентами рабочие процессы. Linker Vision также использует Nvidia Cosmos для улучшения видеоданных и Nvidia TAO для тонкой настройки моделей. В Гаосюне, по данным Nvidia, Linker Vision сократила объем разработки на 85% с помощью плана поиска и обобщения видео, а время реагирования на инциденты уменьшилось до 80%. Компания добавляет, что новое расширение группы AI-GRID включает план NemoClaw для безопасного ИИ-агента в городских и транспортных средах.

В сфере заводских операций еще один пример исходит из мониторинга промышленных рабочих процессов. По данным Nvidia, развернутый на производственных линиях Foxconn агент DeepHow для проверки соблюдения стандартных операционных процедур в реальном времени использует план поиска и обобщения видео Metropolis для поиска, обобщения и анализа видео в рабочей среде. Цель — оценить правильность выполнения работы, сравнить действия со стандартными процедурами и выявить проблемы до того, как дефекты перейдут на следующий этап. Nvidia утверждает, что Cosmos помогает системе интерпретировать последовательности человеческих действий в контексте, включая определение того, выполняются ли сборочные шаги в правильном порядке. По данным Nvidia, на производственной линии серверов Nvidia GB300 система DeepHow повысила процент выхода с первого раза на 3%, достигла 99% точности на уровне задач в понимании ключевых этапов процедур и сократила избыточную работу за счет раннего выявления проблем.

Более широкий рыночный контекст этого релиза — это смещение обработки ИИ на периферию, где данные генерируются на месте, а не передаются обратно в централизованную инфраструктуру. Nvidia ссылается на прогноз Gartner, согласно которому к 2028 году более двух третей корпоративных данных будут создаваться и обрабатываться за пределами центров обработки данных или облака, а к 2029 году более двух третей мировых предприятий развернут периферийный ИИ, по сравнению с всего 10% в 2025 году. Тем не менее, большее количество периферийных данных не автоматически приводит к более полезным выводам. Модели, работающие рядом с камерами и машинами, должны функционировать в условиях ограничений по задержке, энергопотреблению, стоимости и подключению, одновременно адаптируясь к условиям каждого конкретного объекта. OpenUSD находится в центре подхода Nvidia, поскольку он предоставляет универсальный способ описания и повторного использования 3D-сцен. Библиотеки Omniverse помогают командам создавать рабочие процессы моделирования, синтетических данных и цифровых двойников, расширяя тестирование в различных условиях, таких как освещение, погода, транспортные потоки, углы обзора камер, заслонения и редкие события.

Новый набор включает навык генерации изображений дефектов, навык улучшения видеоданных, навык TAO для тонкой настройки моделей, а также навык поиска и обобщения видео для оповещений, отчетов и управления потоками. Цель состоит в том, чтобы разработчикам не приходилось каждый раз перестраивать каждую часть рабочего процесса с нуля при каждом развертывании. Эти многократно используемые рабочие процессы призваны помочь разработчикам генерировать данные, улучшать модели и развертывать агенты компьютерного зрения в промышленности, на транспорте и в городском управлении.

Китай

США

Информация и коммуникация Искусственный интеллект

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта：news@wedoany.com

Предыдущий：Первый самолёт Airbus A350 «Куньпэн» авиакомпании Shenzhen Airlines официально введён в эксплуатацию

Следующий：Американский облачный стартап Dawnguard привлёк $3,3 млн и запустил платформу для архитектуры облачной безопасности