Репортаж от Wedoany,Во вторник Microsoft выпустила открытый фреймворк ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing — адаптивное оценивание на основе спецификаций для проверки и регрессионного тестирования), предназначенный для упрощения процессов тестирования и оценки поведения приложений ИИ.
Этот фреймворк использует технологию искусственного интеллекта для преобразования высокоуровневых описаний целей, стратегий или ожидаемого поведения на естественном языке в исполняемые и оцениваемые тестовые сценарии. ASSERT принимает описания ожидаемого поведения и стратегий модели ИИ на простом языке, преобразует их в структурированный набор приемлемых и неприемлемых действий, генерирует проблемные сценарии и тестовые примеры, запускает их на целевой системе и оценивает результаты. Фреймворк также записывает путь, пройденный системой ИИ, включая промежуточные действия и вызовы инструментов, что позволяет разработчикам легко определить место возникновения сбоя.
Разработчики могут дополнительно предоставлять системный контекст, инструменты и ограничения для настройки охвата оценки. Например, разработчик может указать, что агент ИИ для исследования документов не должен отправлять электронные письма внешним сотрудникам компании, должен ограничивать конфиденциальную информацию кругом топ-менеджеров и предоставлять краткие резюме с учётом предыдущего контекста. ASSERT будет использовать эти правила для генерации тестовых сценариев и постоянно проверять, соблюдает ли система эти правила.

Microsoft отмечает, что ASSERT заполняет пробел, который не могут покрыть более широкие и общие оценки, когда поведение модели ИИ необходимо формировать с учётом контекста, политик и инструментов конкретного приложения или продукта. «Один из уроков, который мы усвоили, заключается в том, что оценка абсолютно необходима для принятия правильных решений», — заявила Сара Бёрд (Sarah Bird), главный директор по продуктам в области ответственного ИИ в Microsoft. «Потому что без понимания поведения системы ИИ трудно узнать, соответствует ли она стандартам организации… Мы обнаружили, что если действительно хотите иметь надёжную систему, следует оценивать больше аспектов, специфичных для приложения». Бёрд отметила, что ASSERT можно использовать для оценки как на этапе построения системы, так и после развёртывания, а также для непрерывного мониторинга.
Этот релиз происходит на фоне постепенного повышения возможностей оценки в индустрии ИИ. По мере усиления моделей исследователи начинают уделять внимание воспроизводимому тестированию и регрессионным проверкам. Такие инициативы, как HELM от Стэнфордского университета, AILuminate от MLCommons и команда оценки METR, выпускают бенчмарки для измерения поведения моделей в различных условиях.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









