KT и Университет Корё разработали корейский AI-бенчмарк безопасности_Глобальные новости

KT и Университет Корё разработали корейский AI-бенчмарк безопасности

2026-06-16 13:41

В избр.

Репортаж от Wedoany，Компания KT 16-го числа объявила о совместной с Университетом Корё разработке мультимодального бенчмарка безопасности для больших языковых моделей под названием «KSAFE-MM», предназначенного для оценки безопасности моделей искусственного интеллекта в социокультурном контексте Южной Кореи.

Данный бенчмарк, учитывающий социальные проблемы и культурный контекст Южной Кореи, состоит из двух подмножеств: «KSAFE-MM-G» преобразует глобальные общие риски в корейский культурный контекст для оценки; «KSAFE-MM-C» специально ориентирован на уникальные для южнокорейского общества темы, такие как мошенничество с чонсе (арендной платой) и спор о скалах Токто. Весь набор данных включает в общей сложности 14 135 оценочных образцов, что делает его крупнейшим на сегодняшний день в Южной Корее мультимодальным набором данных для оценки безопасности на корейском языке. На данный момент бенчмарк прошёл валидацию на 12 глобальных мультимодальных больших языковых моделях, включая Gemma и HyperCLOVA X.

Сотрудники KT разрабатывают «KSAFE-MM». (Фото: KT)

Данный бенчмарк реализован с помощью автоматизированного универсального процесса. «KSAFE-MM» обеспечивает четырёхэтапный автоматизированный процесс, охватывающий весь цикл, включая сбор чувствительных тем на основе местного сообщества, генерацию запросов на основе шаблонов, генерацию синтетических изображений, а также генерацию «джейлбрейк»-запросов, направленных на обход механизмов безопасности или этических ограничений ИИ. В KT заявили, что этот процесс позволяет быстро создавать бенчмарки безопасности, отражающие местные особенности, без привлечения экспертов в конкретной культурной области, тем самым снижая затраты и повышая эффективность.

Совместная исследовательская группа KT и Университета Корё, применив тот же процесс в пилотном эксперименте на японском языке, доказала, что данный бенчмарк может быть немедленно применён в любой культурной среде по всему миру. Результаты исследования могут быть использованы для проверки безопасности в реальных средах сервисов ИИ, тестирования «красных команд» (red teaming), оценки моделей-ограничителей (guardrails) и других целей. Результаты исследования и сам бенчмарк будут опубликованы на платформах arXiv и Hugging Face.

Пак Чжэ Хён, руководитель Frontier AI Lab в Институте будущих технологий AX компании KT, отметил, что публикация бенчмарка — это не просто распространение данных, а стремление заложить основу для совместного развития всей экосистемы исследований в области безопасности ИИ. Он выразил надежду, что KSAFE-MM станет универсальным стандартом для проверки безопасности ИИ в контексте корейского языка и корейской культуры как в академических, так и в промышленных кругах.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Южная Корея

Информация и коммуникация Искусственный интеллект Автоматическая обработка естественного языка

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта：news@wedoany.com