Репортаж от Wedoany,Компания KT 16-го числа объявила о совместной с Университетом Корё разработке мультимодального бенчмарка безопасности для больших языковых моделей под названием «KSAFE-MM», предназначенного для оценки безопасности моделей искусственного интеллекта в социокультурном контексте Южной Кореи.
Данный бенчмарк, учитывающий социальные проблемы и культурный контекст Южной Кореи, состоит из двух подмножеств: «KSAFE-MM-G» преобразует глобальные общие риски в корейский культурный контекст для оценки; «KSAFE-MM-C» специально ориентирован на уникальные для южнокорейского общества темы, такие как мошенничество с чонсе (арендной платой) и спор о скалах Токто. Весь набор данных включает в общей сложности 14 135 оценочных образцов, что делает его крупнейшим на сегодняшний день в Южной Корее мультимодальным набором данных для оценки безопасности на корейском языке. На данный момент бенчмарк прошёл валидацию на 12 глобальных мультимодальных больших языковых моделях, включая Gemma и HyperCLOVA X.

Данный бенчмарк реализован с помощью автоматизированного универсального процесса. «KSAFE-MM» обеспечивает четырёхэтапный автоматизированный процесс, охватывающий весь цикл, включая сбор чувствительных тем на основе местного сообщества, генерацию запросов на основе шаблонов, генерацию синтетических изображений, а также генерацию «джейлбрейк»-запросов, направленных на обход механизмов безопасности или этических ограничений ИИ. В KT заявили, что этот процесс позволяет быстро создавать бенчмарки безопасности, отражающие местные особенности, без привлечения экспертов в конкретной культурной области, тем самым снижая затраты и повышая эффективность.
Совместная исследовательская группа KT и Университета Корё, применив тот же процесс в пилотном эксперименте на японском языке, доказала, что данный бенчмарк может быть немедленно применён в любой культурной среде по всему миру. Результаты исследования могут быть использованы для проверки безопасности в реальных средах сервисов ИИ, тестирования «красных команд» (red teaming), оценки моделей-ограничителей (guardrails) и других целей. Результаты исследования и сам бенчмарк будут опубликованы на платформах arXiv и Hugging Face.
Пак Чжэ Хён, руководитель Frontier AI Lab в Институте будущих технологий AX компании KT, отметил, что публикация бенчмарка — это не просто распространение данных, а стремление заложить основу для совместного развития всей экосистемы исследований в области безопасности ИИ. Он выразил надежду, что KSAFE-MM станет универсальным стандартом для проверки безопасности ИИ в контексте корейского языка и корейской культуры как в академических, так и в промышленных кругах.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









