Японская NTT представила мультимодальную структуру XAI-рассуждений: ИИ-агенты совместно восполняют пробел в «достоверности объяснений»_Глобальные новости

Японская NTT представила мультимодальную структуру XAI-рассуждений: ИИ-агенты совместно восполняют пробел в «достоверности объяснений»

2026-06-03 13:58

В избр.

Репортаж от Wedoany，Недавно японская компания NTT объявила о создании новой технологии объяснимого ИИ для мультимодальных базовых моделей — «Rationale-Enhanced Decoding». Эта технология предназначена для повышения надежности выходных данных больших визуально-языковых моделей при обработке изображений и текста. Соответствующее исследование будет представлено на конференции CVPR 2026, которая пройдет с 3 по 7 июня в Денвере, США.

Эта технология направлена на решение ключевой проблемы в современных мультимодальных приложениях ИИ: итоговый ответ, сгенерированный моделью, не обязательно действительно использует обоснование, полученное на предыдущем этапе. В ходе экспериментов NTT обнаружила, что существующие большие визуально-языковые модели, хотя и могут сначала генерировать промежуточный процесс рассуждения, а затем давать окончательный ответ на основе изображения, текста и содержания рассуждения, иногда игнорируют это содержание рассуждения и напрямую полагаются на информацию изображения для вывода результата. Даже если исследователи заменят обоснование на содержание, не связанное с вопросом, модель все равно может дать тот же ответ, что и раньше. Это означает, что так называемая «цепочка мыслей» в некоторых сценариях не может естественным образом приравниваться к реальному объяснению, и ее трудно использовать в высоконадежных приложениях, таких как медицинская визуализация, принятие корпоративных решений и проверка критически важных бизнес-процессов.

Предложенная NTT технология Rationale-Enhanced Decoding не требует переобучения модели и не зависит от дополнительных наборов данных. Ее подход заключается в разделении распределения вероятностей при визуальном вводе и распределения вероятностей при вводе обоснования на этапе рассуждения, а затем в генерации окончательного ответа с помощью комбинированного декодирования, что позволяет выходным данным одновременно ограничиваться информацией изображения и обоснованием.

Эта особенность «отсутствия необходимости переобучения» делает ее более подходящей для встраивания в существующие большие визуально-языковые модели и корпоративные ИИ-системы. Поскольку ИИ-агенты начинают выполнять такие задачи, как понимание документов, анализ видео, промышленный осмотр, поддержка клиентов, проверка рисков и поддержка бизнес-решений, предприятиям требуется не только, чтобы модель давала ответы, но и чтобы можно было оценить, основаны ли ответы на отслеживаемой и проверяемой цепочке доказательств. Если традиционные мультимодальные модели могут предоставить только поверхностный процесс рассуждения, а между окончательным ответом и обоснованием отсутствует согласованность, это повлияет на распределение ответственности и контроль рисков ИИ в критически важных сценариях. Данное исследование NTT продвигает способность к объяснению от «демонстрации причин постфактум» к «принудительному использованию причин в процессе рассуждения», что также важно для взаимодействия между ИИ-агентами, поскольку при совместной работе нескольких ИИ-систем последующим агентам необходимо понимать, почему предыдущий агент принял то или иное решение, и продолжать выполнение задачи на основе того же обоснования.

Последующие направления этого исследования сосредоточены на инженерной интеграции и проверке приложений. Если Rationale-Enhanced Decoding сможет стабильно демонстрировать эффективность в большем количестве мультимодальных моделей, большем количестве задач понимания изображений и корпоративных системах агентов, объяснимый ИИ перестанет быть просто дополнительной функцией на уровне соответствия требованиям или аудита, а станет одной из базовых возможностей для внедрения мультимодального ИИ в производственные процессы. Для индустрии информационно-коммуникационных технологий такие технологии также показывают, что конкуренция в области корпоративного ИИ смещается от масштаба моделей и способности отвечать к согласованности рассуждений, достоверности объяснений и надежности межсистемного взаимодействия.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Япония

Информация и коммуникация Искусственный интеллект

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта：news@wedoany.com