NTT (Япония) представила мультимодальную объяснимую структуру ИИ для рассуждений, модели визуального языка переходят к этапу калибровки достоверных выходных данных
2026-06-02 16:45
В избр.

Репортаж от Wedoany,Компания NTT (Япония) недавно объявила о создании мультимодальной объяснимой структуры ИИ для рассуждений «Rationale-Enhanced Decoding», направленной на решение проблемы достоверности выходных данных крупных моделей визуального языка при совместном рассуждении на основе изображений и текста, а также на повышение согласованности между конечным ответом модели и обоснованием рассуждений. Результаты будут представлены на конференции CVPR 2026, которая пройдет с 3 по 7 июня в Денвере (США). Области применения включают корпоративное принятие решений, взаимодействие агентов ИИ, понимание документов, визуальные вопросы и ответы, а также высоконадежное взаимодействие человека и компьютера.

Крупные модели визуального языка переходят от простого «ответа на основе изображения» к более сложным мультимодальным рассуждениям, способным одновременно обрабатывать изображения, текст, таблицы, скриншоты страниц, видеоклипы и деловые документы. Они постепенно внедряются и тестируются в таких областях, как промышленный осмотр, медицинская визуализация, проверка контрактов, удаленное обслуживание, интеллектуальная поддержка клиентов и корпоративное управление знаниями. Однако ключевая проблема таких моделей заключается в том, что сгенерированный промежуточный процесс рассуждений не обязательно влияет на конечный ответ. В своем исследовании NTT отмечает, что традиционные методы мультимодальной цепочки рассуждений сначала генерируют объяснение или обоснование, а затем вводят эти данные вместе с исходным изображением в модель для получения окончательного ответа. Внешне модель предоставляет «причину», но фактический вывод может по-прежнему в основном полагаться на особенности изображения. Более того, даже если обоснование рассуждений заменить на нерелевантное содержимое, модель все равно может дать исходный ответ. Это означает, что так называемое объяснение может быть лишь дополнительным текстом, не доказывающим, что модель действительно следовала этому объяснению при принятии решения. Для корпоративных систем ИИ, требующих аудита, подотчетности и проверки, это снижает доверие к мультимодальному ИИ в критически важных бизнес-процессах и ограничивает внедрение моделей визуального языка в высоконадежные сценарии, такие как медицинская диагностика, управление финансовыми рисками, контроль качества на производстве и сложные офисные процессы.

Предложенное NTT решение не требует переобучения модели и не полагается на дополнительные наборы данных. Вместо этого оно реорганизует способ генерации выходных данных на этапе рассуждений.

Данная структура формирует условные распределения для визуального ввода и обоснования рассуждений по отдельности, а затем комбинирует их для прогнозирования следующего слова. Это позволяет модели при генерации ответа одновременно учитывать ограничения, накладываемые информацией изображения и обоснованием. Другими словами, конечный ответ должен быть согласован как с визуальным содержимым, так и с обоснованием рассуждений, а не рассматривать пояснительный текст как необязательное дополнение. NTT описывает этот метод как готовую к использованию технологию декодирования, которую можно интегрировать в существующие крупные модели визуального языка, снижая затраты на вычислительные ресурсы, данные и развертывание, связанные с дополнительным обучением. Результаты исследований показывают, что этот метод повышает точность ответов и верность обоснованию рассуждений в различных моделях визуального языка. При вводе более качественных обоснований эффективность структуры дополнительно усиливается. Для внедрения корпоративного ИИ ценность такого технического подхода заключается в переходе от «модель может ответить» к «ответ модели можно объяснить, проверить и проанализировать», обеспечивая более стабильную основу для рассуждений в многолетнем сотрудничестве, обработке сложных документов, анализе визуальных сцен и поддержке принятия решений.

Промышленное значение мультимодального объяснимого ИИ возрастает. По мере того как агенты ИИ переходят от одноразовых вопросов и ответов к последовательному выполнению задач, система будет многократно передавать результаты суждений между распознаванием изображений, пониманием документов, поиском, планированием и вызовом инструментов. Если обоснование, предоставленное фронтальной моделью визуального языка, не соответствует ответу, последующая цепочка агентов может продолжать расширяться на основе ошибочных данных. Результаты NTT фокусируются на фундаментальном вопросе: «действительно ли обоснование рассуждений участвует в генерации ответа?», что способствует повышению достоверности информации при взаимодействии между системами ИИ. Если в дальнейшем эта структура подтвердит свою стабильность на большем количестве моделей, задач и реальных бизнес-данных, она может войти в уровень рассуждений корпоративных платформ ИИ, интеллектуальных офисных систем, отраслевых больших моделей и высоконадежных инструментов визуального анализа, став важным технологическим компонентом для перехода мультимодального ИИ от демонстрации к производственному развертыванию.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Американская компания Niobium открывает программу партнерства The Fog, облако с полным гомоморфным шифрованием переходит на этап разработческого тестирования
2026-06-02
Компания ZPE Systems, входящая в группу Legrand (Франция), представила NSR 2U — сетевое оборудование для периферийных вычислений с ускорением ИИ и единым управлением
2026-06-02
Канадская компания Bell инвестирует 25 миллионов долларов в модернизацию сети 5G+ Advanced, связь на крупных спортивных мероприятиях переходит на этап тестирования сетевых срезов
2026-06-02
Компания Keysight Technologies (США) получила сертификацию Hybrid eCall, знаменуя переход систем экстренной связи подключённых автомобилей к гибридным сетям 4G/5G
2026-06-02
NTT (Япония) представила мультимодальную объяснимую структуру ИИ для рассуждений, модели визуального языка переходят к этапу калибровки достоверных выходных данных
2026-06-02
Компания Hyland из США запускает платформу управления корпоративными агентами, а программное обеспечение для управления контентом переходит к производственному ИИ-управлению
2026-06-02
Американская компания Allstacks запустила Product Studio: корпоративная разработка ПО переходит от генерации кода к управлению требованиями
2026-06-02
Американская DXC объединяет 11 000 инженеров: корпоративная поставка ПО переходит от пилотных проектов ИИ к производственным системам
2026-06-02
Южнокорейская компания TELICA выпускает стартовый набор электронных ценников, снижая порог внедрения цифровизации для малого и среднего розничного бизнеса
2026-06-02
Сингапурская SynaXG совместно с японской NHI запускает мобильное решение AI-RAN, частная сеть 5G может быть быстро развернута на месте
2026-06-02
Последние новости
1
Франко-голландское совместное предприятие Thorizon планирует к 2034 году построить коммерческий ториевый реактор на расплавленных солях в Борселе, Нидерланды
2
Министр энергетики Турции Байрактар: цель — ввести в эксплуатацию первый энергоблок АЭС «Аккую» к концу года
3
Стратегический участок в порту Гдыни сдан в аренду для производства крупных стальных конструкций для первой атомной электростанции
4
Оксфорд Сигма и Локвуд сотрудничают в производстве ключевого прототипа катушки для британского проекта STEP по термоядерному синтезу
5
Американская компания Niobium открывает программу партнерства The Fog, облако с полным гомоморфным шифрованием переходит на этап разработческого тестирования
6
Компания Kansai Electric Power завершила транспортировку новых тепловыделяющих сборок для 3-го энергоблока АЭС «Ои»
7
Бразильская Atvos инвестирует более 1 миллиарда реалов в строительство интегрированного завода по производству этанола
8
Введен в эксплуатацию энергоблок №1 теплоэлектростанции мощностью 660 МВт в Цзинане, построенной компанией PowerChina
9
Совместное предприятие Fluor-JGC получило ограниченное уведомление о начале работ по второй очереди расширения канадского проекта LNG Canada
10
Генераторный блок № 1 угольной электростанции Давань, генеральным подрядчиком которого выступает Хунаньский институт Китая, успешно подключён к сети с первой попытки