Microsoft с открытым исходным кодом выпустила фреймворк SkillOpt для оптимизации навыков ИИ-агентов_Глобальные новости

Microsoft с открытым исходным кодом выпустила фреймворк SkillOpt для оптимизации навыков ИИ-агентов

2026-06-12 11:59

В избр.

Репортаж от Wedoany，Компания Microsoft недавно выпустила с открытым исходным кодом новый фреймворк под названием SkillOpt, который предназначен для преобразования документации навыков ИИ-агентов в обучаемые объекты. Благодаря внедрению методов оптимизации, характерных для глубокого обучения, фреймворк систематически повышает производительность агентов в сложных задачах.

Оптимизация навыков

В корпоративных ИИ-приложениях навыки агентов обычно существуют в виде текстовых файлов Markdown, содержащих инструкции для адаптации модели к конкретным рабочим процессам. Однако традиционная оптимизация этих навыков полагается на ручное редактирование, что является медленным и подверженным ошибкам процессом. Пользователям часто приходится многократно экспериментировать, чтобы найти комбинации инструкций, повышающие производительность. SkillOpt решает эту проблему: фреймворк (распространяемый по лицензии MIT) рассматривает документы навыков как обучаемые объекты, которые можно итеративно корректировать на основе обратной связи по производительности, обеспечивая программную адаптацию на уровне документов без изменения весов базовой модели.

Ян Ифань (Yifan Yang), старший инженер-исследователь Microsoft Research Asia, отмечает, что ручное редактирование документов навыков сталкивается с тремя основными типами сбоев: отсутствие контроля шага приводит к дрейфу навыков, отсутствие механизма проверки делает, казалось бы, правильные изменения потенциально снижающими производительность, а отсутствие памяти отрицательной обратной связи приводит к повторению одних и тех же ошибок. Например, неограниченное переписывание снизило показатель GPT-5.5 на бенчмарке SpreadsheetBench с 41,8 до 41,1. Ян Ифань подчеркивает, что эти ошибки усиливаются в многошаговых рабочих процессах, что является слабым местом современных передовых моделей при нулевом обучении (zero-shot reasoning).

SkillOpt решает эти проблемы с помощью итеративного цикла «предложение-тестирование». Процесс начинается с выполнения замороженной целевой моделью пакета задач, генерирующего траектории выполнения в качестве доказательств текущего состояния. Затем офлайн-оптимизатор анализирует эти траектории, выявляет систематические программные ошибки и предлагает структурные правки в документ навыков. Перед применением эти правки проходят проверку и сортировку, а также ограничиваются максимальным бюджетом редактирования на шаг (аналогично скорости обучения в глубоком обучении), чтобы предотвратить резкий дрейф версии навыка. Кандидатные навыки оцениваются на отложенном проверочном наборе: если они повышают проверочный балл, то принимаются; в противном случае отклоняются и помещаются в буфер отклоненных правок, предоставляя оптимизатору отрицательную обратную связь. Кроме того, фреймворк выполняет медленное обновление, сравнивая производительность задач при навыках предыдущего и текущего раундов, что аналогично моментуму (momentum) для передачи долгосрочного программного опыта.

Фреймворк SkillOpt

В ходе практической оценки исследовательская группа протестировала SkillOpt на различных моделях, включая GPT-5.5, GPT-5.4-mini и Qwen3.5-4B, охватив такие бенчмарки, как однораундовые вопросы-ответы, многораундовая генерация кода и многомодальное документообоснование. Результаты показали, что SkillOpt превосходит различные базовые методы, включая TextGrad, GEPA и EvoSkill, во всех 52 оценочных комбинациях. На передовой модели GPT-5.5 средний абсолютный прирост точности составил 23,5 процентных пункта по сравнению с базовым уровнем без навыков. Для небольших моделей, таких как GPT-5.4-nano, показатели почти удвоились или выросли втрое. Эти улучшения производительности напрямую соответствуют ключевым потребностям предприятий, таким как точное извлечение цифр из контрактов, счетов и таблиц, а также операции в автоматизации AP, обработке претензий и соблюдении нормативных требований. Ян Ифань отмечает, что улучшение заключается в надежности, включая точное форматирование, самопроверку и аудируемые выходные данные, и эти выгоды проистекают из изучения процедур, а не запоминания ответов.

Фреймворк SkillOpt демонстрирует хорошую переносимость и совместимость. Эксперименты подтвердили, что фреймворк не зависит от среды выполнения и обеспечивает значительные улучшения в средах, поддерживаемых такими инструментами, как Codex CLI и Claude Code. Например, навык работы с электронными таблицами, полностью обученный в цикле Codex, может быть напрямую перенесен в Claude Code без каких-либо изменений, обеспечивая прирост производительности до 59,7 процентных пунктов по сравнению с собственным базовым уровнем Claude Code. Кроме того, артефакты навыков могут переноситься между моделями разных размеров: навык, оптимизированный для GPT-5.4, при развертывании на меньших моделях GPT-5.4-mini и GPT-5.4-nano по-прежнему дает положительные результаты. Финальные развернутые документы навыков никогда не превышали 2000 токенов, со средней длиной около 920 токенов, что делает их легко читаемыми и аудируемыми.

Процесс SkillOpt

Что касается затрат, для повседневных корпоративных сценариев фактическая нагрузка SkillOpt невелика. Ян Ифань упоминает, что в таких сообщественных фреймворках, как GBrain, обновления SkillOpt выполняются на Claude Sonnet, а средняя стоимость обучения одного навыка для одной задачи составляет от 1 до 5 долларов США, причем эти затраты на оптимизацию являются единовременными. Однако для эффективной работы фреймворка необходимы два условия: десятки репрезентативных примеров и поддающийся оценке сигнал обратной связи. Командам следует избегать его применения к открытым или субъективным задачам. В то же время SkillOpt может работать совместно с существующими стеками оркестрации (например, DSPy), являясь скорее дополнением, чем заменой. Заглядывая в будущее, сообщество открытого кода уже начало развертывать периодические запуски SkillOpt на прошлых траекториях агентов для создания экосистемы самооптимизирующихся плагинов для кодовых агентов. Ян Ифань считает, что навыки — это самый быстрый, дешевый и обратимый первый шаг для ИИ к самостоятельному обнаружению знаний и улучшению собственного поведения, и тот же образ мышления ведет к тому, что агенты в конечном итоге будут оптимизировать себя вплоть до собственных весов.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Китай

США

Информация и коммуникация Искусственный интеллект

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта：news@wedoany.com

Предыдущий：Американский DoorDash запускает ИИ-чатбота Ask DoorDash, позволяющего делать заказы по фото и подсказкам

Следующий：Французская компания Alice & Bob представила систему Helium с 18 кубитами «кота Шрёдингера»