Microsoft выпустила открытый фреймворк ASSERT для упрощения тестирования и оценки поведения ИИ
2026-06-03 09:48
В избр.

Репортаж от Wedoany,Во вторник Microsoft выпустила открытый фреймворк ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing — адаптивное оценивание на основе спецификаций для проверки и регрессионного тестирования), предназначенный для упрощения процессов тестирования и оценки поведения приложений ИИ.

Этот фреймворк использует технологию искусственного интеллекта для преобразования высокоуровневых описаний целей, стратегий или ожидаемого поведения на естественном языке в исполняемые и оцениваемые тестовые сценарии. ASSERT принимает описания ожидаемого поведения и стратегий модели ИИ на простом языке, преобразует их в структурированный набор приемлемых и неприемлемых действий, генерирует проблемные сценарии и тестовые примеры, запускает их на целевой системе и оценивает результаты. Фреймворк также записывает путь, пройденный системой ИИ, включая промежуточные действия и вызовы инструментов, что позволяет разработчикам легко определить место возникновения сбоя.

Разработчики могут дополнительно предоставлять системный контекст, инструменты и ограничения для настройки охвата оценки. Например, разработчик может указать, что агент ИИ для исследования документов не должен отправлять электронные письма внешним сотрудникам компании, должен ограничивать конфиденциальную информацию кругом топ-менеджеров и предоставлять краткие резюме с учётом предыдущего контекста. ASSERT будет использовать эти правила для генерации тестовых сценариев и постоянно проверять, соблюдает ли система эти правила.

Microsoft отмечает, что ASSERT заполняет пробел, который не могут покрыть более широкие и общие оценки, когда поведение модели ИИ необходимо формировать с учётом контекста, политик и инструментов конкретного приложения или продукта. «Один из уроков, который мы усвоили, заключается в том, что оценка абсолютно необходима для принятия правильных решений», — заявила Сара Бёрд (Sarah Bird), главный директор по продуктам в области ответственного ИИ в Microsoft. «Потому что без понимания поведения системы ИИ трудно узнать, соответствует ли она стандартам организации… Мы обнаружили, что если действительно хотите иметь надёжную систему, следует оценивать больше аспектов, специфичных для приложения». Бёрд отметила, что ASSERT можно использовать для оценки как на этапе построения системы, так и после развёртывания, а также для непрерывного мониторинга.

Этот релиз происходит на фоне постепенного повышения возможностей оценки в индустрии ИИ. По мере усиления моделей исследователи начинают уделять внимание воспроизводимому тестированию и регрессионным проверкам. Такие инициативы, как HELM от Стэнфордского университета, AILuminate от MLCommons и команда оценки METR, выпускают бенчмарки для измерения поведения моделей в различных условиях.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Французская Schneider Electric поставила американской TeraWulf инфраструктуру для ИИ на сумму более 290 млн долларов
2026-06-03
Индийская компания Anant Raj инвестирует 200 миллиардов рупий в расширение центра обработки данных в Харьяне, ускоряя развитие облачных сервисов в Северной Индии
2026-06-03
Американская компания Eli Lilly запустила суперкомпьютер LillyPod: ИИ-открытие лекарств переходит в этап создания собственных вычислительных мощностей фармацевтическими компаниями
2026-06-03
Немецкая SVA сотрудничает с американской Horizon3.ai: AI-нативное тестирование на проникновение включается в непрерывную проверку безопасности
2026-06-03
Немецкий воркшоп iX проводит обучение по практическому применению ИИ в управлении продуктами
2026-06-03
В округе Муранга (Кения) 170 медицинских учреждений подключены к Starlink для улучшения доступности здравоохранения
2026-06-03
Американская компания Optimizely совместно с Deloitte Digital выводит AI-персонализацию контента на этап реструктуризации маркетинговых рабочих процессов
2026-06-03
Индийская Excitel получила прибыль в 4 млрд рупий в 2026 финансовом году, цель — увеличить число пользователей на 20% к 2028 финансовому году
2026-06-03
Telikom из Папуа-Новой Гвинеи стал вторым дилером Starlink: широкополосная связь LEO восполняет пробелы в удаленных регионах
2026-06-03
STMicroelectronics повышает цель по доходам от центров обработки данных на 2026 год, бизнес по оптическим межсоединениям для ИИ стремится к 1 миллиарду долларов
2026-06-03
Последние новости
1
Китайский научно-исследовательский институт угольной промышленности завершил комплексную проверку и валидацию шахтного инспекционного робота
2
Компания Thermo Fisher Scientific (США) представила систему E-Gel Power Snap Lite для упрощения проверки нуклеиновых кислот
3
Китайская компания Comen Medical представила медицинские решения на выставке Hospitalar 2026 в Бразилии
4
Немецкая компания FundaMental Pharma назначила главного медицинского директора
5
Завод по производству накопителей энергии мощностью 10 ГВт·ч компании Zhiguang Energy Storage в провинции Гуандун признан провинциальным интеллектуальным заводом
6
В MIT разработали неинвазивный ультразвуковой кардиостимулятор в виде пластыря
7
TagEnergy ввела в эксплуатацию крупнейшую в Франции систему хранения энергии на аккумуляторах
8
Lointek разрабатывает проект накопителя энергии на жидком воздухе мощностью 300 МВт·ч для британской компании Highview
9
Компания Power Grid Corporation of India Limited объявила тендер на проект аккумуляторной системы хранения энергии мощностью 100 МВт/400 МВт·ч
10
ITER разрабатывает во Франции специализированные роботизированные системы для решения задач внутренней сборки термоядерной установки