Репортаж от Wedoany,Microsoft недавно выпустила с открытым исходным кодом фреймворк для оценки ИИ, предназначенный для преобразования требований на естественном языке в исполняемые тесты, чтобы усилить возможности предприятий в области управления искусственным интеллектом. Фреймворк, названный ASSERT (Адаптивная оценка на основе спецификаций для оценки и регрессионного тестирования), способен автоматически генерировать сценарии оценки, наборы данных, метрики и оценочные карты на основе письменных спецификаций, требований к продукту и документов по управлению. В блоге, посвящённом выпуску фреймворка, Microsoft заявила, что многие организации испытывают трудности с систематической верификацией поведения агентов перед их вводом в эксплуатацию.

Агенты могут давать сбои незаметными способами, например, отклоняясь от установленных политик, генерируя небезопасные результаты в пограничных случаях или демонстрируя различия в поведении в производственной среде по сравнению с тестовой. Универсальные бенчмарки не способны уловить эти сбои, поскольку они не построены вокруг конкретных политик, агентов или вариантов использования. ASSERT избавляет разработчиков от необходимости вручную создавать наборы для оценки, преобразуя письменные намерения в многократно используемые тесты, которые можно интегрировать в процесс разработки ИИ.
С ASSERT Microsoft выходит на всё более конкурентный рынок оценки ИИ. На этом рынке уже присутствуют такие платформы, как LangSmith от LangChain, Braintrust, Patronus AI, Galileo, Phoenix от Arize AI и Promptfoo, которые помогают компаниям проводить бенчмаркинг, мониторинг и верификацию приложений на основе больших языковых моделей. Этот запуск происходит в то время, когда предприятия ускоряют развёртывание ИИ-агентов, но формальные практики оценки остаются скорее исключением, чем правилом. Аналитик-директор Gartner Анушри Верма отмечает, что в настоящее время 99% организаций не оценивают ни одного ИИ-агента перед вводом в эксплуатацию. Следующее конкурентное преимущество в отрасли будет больше зависеть от эффективности, с которой организации могут моделировать и подвергать стресс-тестированию ИИ-агентов перед развёртыванием, чем от прогресса в области моделей рассуждения. Gartner оценивает, что к 2029 году в регулируемых отраслях более 75% специализированных агентов, не прошедших имитационное проектирование, не смогут обеспечить ценность.
Forrester считает, что предприятия переходят к оценке поведения, но большинство организаций ещё не сделали её формальным производственным требованием. Главный аналитик Forrester Бисваджит Махапатра заявляет, что оценка поведения применяется непоследовательно, а не рассматривается как формальный производственный барьер. Согласно данным Forrester, более 45% организаций уже применяют ИИ-агентов, а ещё 25% находятся на стадии пилотных проектов, однако многие сталкиваются с трудностями при масштабировании из-за незрелости управления и ограниченной операционной строгости.
Microsoft сообщает, что ASSERT использует большие языковые модели в качестве судей, и во внутренней валидации компании уровень согласованности между оценками, сгенерированными моделью, и оценками людей-рецензентов составляет от 80% до 90%. Главный аналитик Forrester Бисваджит Махапатра отмечает, что такой уровень согласованности помогает автоматизировать большую часть тестирования ИИ, но всё ещё недостаточен в качестве независимой меры контроля для управления или соответствия требованиям. Предприятиям следует применять многоуровневый надзор, позволяя ИИ оценивать ИИ в больших масштабах, при этом оставляя за людьми ответственность за надзор в высокорисковых, регулируемых или неоднозначных сценариях. Покупателям также следует обращать внимание на проблемы предвзятости, согласованности и чрезмерной зависимости от одной модели, выступающей одновременно в роли генератора и оценщика.
Microsoft выпустила ASSERT под лицензией MIT с открытым исходным кодом, что позволяет организациям проверять, модифицировать фреймворк и интегрировать его в существующие процессы разработки ИИ. Главный аналитик Forrester Бисваджит Махапатра заявляет, что открытый исходный код снижает риск блокировки поставщика и обеспечивает широкую совместимость в экосистеме моделей, но не может полностью устранить проблемы доверия или конфликта интересов, поскольку исходный поставщик всё ещё влияет на то, как кодируются критерии оценки, логика подсчёта баллов и определение приемлемого поведения. Предприятиям не следует полагаться на единый фреймворк оценки, а вместо этого валидировать ИИ-системы с помощью нескольких методов оценки и сохранять право собственности на внутренние стратегии оценки.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com









