Исследователи Стэнфордского университета разработали инновационную модель компьютерного зрения, способную распознавать функции различных частей объекта в реальном мире и способствовать повышению эффективности выбора и использования автономных роботизированных инструментов. В области искусственного интеллекта традиционные модели компьютерного зрения реализовали распознавание объектов двумерного изображения, но понимание функций различных частей объекта все еще остается сложной проблемой. Новая модель, представленная Стэнфордским университетом, не только распознает части объекта, но и различает его реальное использование и выполняет функциональное отображение между объектами в пикселях.

Суть модели заключается в достижении «функционального соответствия», то есть распознавании и отображении областей пикселей с одинаковой функцией по категориям объектов. Например, модель может распознавать стеклянные бутылки и насадки чайника и понять их функцию налива воды. «Мы хотим создать систему зрения, которая поддерживает обобщение и позволяет передавать навыки от одного объекта к другому», — объясняет первый автор Стивен Стожанов. Этот прорыв позволяет роботу отличать мясо от хлебного ножа, или лопату от лопаты, и выбирать правильный инструмент для выполнения задачи.
Традиционный метод полагается на ручную аннотацию для достижения разреженного функционального соответствия, в то время как новая модель использует схему слабого надзора и использует модель визуального языка для генерации тегов, требуя только от человеческих экспертов для контроля качества данных. Этот метод более эффективен и экономичен, говорит Линан « Фрэнк » Чжао: « Задачи, которые несколько лет назад требовали большого количества рабочей силы, теперь могут быть выполнены с меньшими ресурсами ». Например, в случае чайника и бутылки модель может точно выравнивать пиксели в горловине и горловине бутылки для интенсивного отображения функций.
В настоящее время эффективность системы была проверена в тестировании изображений, и хотя она не была проверена в экспериментах с реальными роботами, команда считает, что она принесет огромный прогресс в робототехнике и компьютерном зрении. Плотное функциональное соответствие знаменует собой переход искусственного интеллекта от распознавания образов к рассуждению объектов, и новая система может выводить намерения, а не просто распознавать пиксели.











京公网安备 11010802043282号