Репортаж от Wedoany,Недавно японская компания NTT объявила о создании новой технологии объяснимого ИИ для мультимодальных базовых моделей — «Rationale-Enhanced Decoding». Эта технология предназначена для повышения надежности выходных данных больших визуально-языковых моделей при обработке изображений и текста. Соответствующее исследование будет представлено на конференции CVPR 2026, которая пройдет с 3 по 7 июня в Денвере, США.
Эта технология направлена на решение ключевой проблемы в современных мультимодальных приложениях ИИ: итоговый ответ, сгенерированный моделью, не обязательно действительно использует обоснование, полученное на предыдущем этапе. В ходе экспериментов NTT обнаружила, что существующие большие визуально-языковые модели, хотя и могут сначала генерировать промежуточный процесс рассуждения, а затем давать окончательный ответ на основе изображения, текста и содержания рассуждения, иногда игнорируют это содержание рассуждения и напрямую полагаются на информацию изображения для вывода результата. Даже если исследователи заменят обоснование на содержание, не связанное с вопросом, модель все равно может дать тот же ответ, что и раньше. Это означает, что так называемая «цепочка мыслей» в некоторых сценариях не может естественным образом приравниваться к реальному объяснению, и ее трудно использовать в высоконадежных приложениях, таких как медицинская визуализация, принятие корпоративных решений и проверка критически важных бизнес-процессов.
Предложенная NTT технология Rationale-Enhanced Decoding не требует переобучения модели и не зависит от дополнительных наборов данных. Ее подход заключается в разделении распределения вероятностей при визуальном вводе и распределения вероятностей при вводе обоснования на этапе рассуждения, а затем в генерации окончательного ответа с помощью комбинированного декодирования, что позволяет выходным данным одновременно ограничиваться информацией изображения и обоснованием.
Эта особенность «отсутствия необходимости переобучения» делает ее более подходящей для встраивания в существующие большие визуально-языковые модели и корпоративные ИИ-системы. Поскольку ИИ-агенты начинают выполнять такие задачи, как понимание документов, анализ видео, промышленный осмотр, поддержка клиентов, проверка рисков и поддержка бизнес-решений, предприятиям требуется не только, чтобы модель давала ответы, но и чтобы можно было оценить, основаны ли ответы на отслеживаемой и проверяемой цепочке доказательств. Если традиционные мультимодальные модели могут предоставить только поверхностный процесс рассуждения, а между окончательным ответом и обоснованием отсутствует согласованность, это повлияет на распределение ответственности и контроль рисков ИИ в критически важных сценариях. Данное исследование NTT продвигает способность к объяснению от «демонстрации причин постфактум» к «принудительному использованию причин в процессе рассуждения», что также важно для взаимодействия между ИИ-агентами, поскольку при совместной работе нескольких ИИ-систем последующим агентам необходимо понимать, почему предыдущий агент принял то или иное решение, и продолжать выполнение задачи на основе того же обоснования.
Последующие направления этого исследования сосредоточены на инженерной интеграции и проверке приложений. Если Rationale-Enhanced Decoding сможет стабильно демонстрировать эффективность в большем количестве мультимодальных моделей, большем количестве задач понимания изображений и корпоративных системах агентов, объяснимый ИИ перестанет быть просто дополнительной функцией на уровне соответствия требованиям или аудита, а станет одной из базовых возможностей для внедрения мультимодального ИИ в производственные процессы. Для индустрии информационно-коммуникационных технологий такие технологии также показывают, что конкуренция в области корпоративного ИИ смещается от масштаба моделей и способности отвечать к согласованности рассуждений, достоверности объяснений и надежности межсистемного взаимодействия.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









