Microsoft с открытым исходным кодом выпустила фреймворк SkillOpt для оптимизации навыков ИИ-агентов
2026-06-12 11:59
В избр.

Репортаж от Wedoany,Компания Microsoft недавно выпустила с открытым исходным кодом новый фреймворк под названием SkillOpt, который предназначен для преобразования документации навыков ИИ-агентов в обучаемые объекты. Благодаря внедрению методов оптимизации, характерных для глубокого обучения, фреймворк систематически повышает производительность агентов в сложных задачах.

Оптимизация навыков

В корпоративных ИИ-приложениях навыки агентов обычно существуют в виде текстовых файлов Markdown, содержащих инструкции для адаптации модели к конкретным рабочим процессам. Однако традиционная оптимизация этих навыков полагается на ручное редактирование, что является медленным и подверженным ошибкам процессом. Пользователям часто приходится многократно экспериментировать, чтобы найти комбинации инструкций, повышающие производительность. SkillOpt решает эту проблему: фреймворк (распространяемый по лицензии MIT) рассматривает документы навыков как обучаемые объекты, которые можно итеративно корректировать на основе обратной связи по производительности, обеспечивая программную адаптацию на уровне документов без изменения весов базовой модели.

Ян Ифань (Yifan Yang), старший инженер-исследователь Microsoft Research Asia, отмечает, что ручное редактирование документов навыков сталкивается с тремя основными типами сбоев: отсутствие контроля шага приводит к дрейфу навыков, отсутствие механизма проверки делает, казалось бы, правильные изменения потенциально снижающими производительность, а отсутствие памяти отрицательной обратной связи приводит к повторению одних и тех же ошибок. Например, неограниченное переписывание снизило показатель GPT-5.5 на бенчмарке SpreadsheetBench с 41,8 до 41,1. Ян Ифань подчеркивает, что эти ошибки усиливаются в многошаговых рабочих процессах, что является слабым местом современных передовых моделей при нулевом обучении (zero-shot reasoning).

SkillOpt решает эти проблемы с помощью итеративного цикла «предложение-тестирование». Процесс начинается с выполнения замороженной целевой моделью пакета задач, генерирующего траектории выполнения в качестве доказательств текущего состояния. Затем офлайн-оптимизатор анализирует эти траектории, выявляет систематические программные ошибки и предлагает структурные правки в документ навыков. Перед применением эти правки проходят проверку и сортировку, а также ограничиваются максимальным бюджетом редактирования на шаг (аналогично скорости обучения в глубоком обучении), чтобы предотвратить резкий дрейф версии навыка. Кандидатные навыки оцениваются на отложенном проверочном наборе: если они повышают проверочный балл, то принимаются; в противном случае отклоняются и помещаются в буфер отклоненных правок, предоставляя оптимизатору отрицательную обратную связь. Кроме того, фреймворк выполняет медленное обновление, сравнивая производительность задач при навыках предыдущего и текущего раундов, что аналогично моментуму (momentum) для передачи долгосрочного программного опыта.

Фреймворк SkillOpt

В ходе практической оценки исследовательская группа протестировала SkillOpt на различных моделях, включая GPT-5.5, GPT-5.4-mini и Qwen3.5-4B, охватив такие бенчмарки, как однораундовые вопросы-ответы, многораундовая генерация кода и многомодальное документообоснование. Результаты показали, что SkillOpt превосходит различные базовые методы, включая TextGrad, GEPA и EvoSkill, во всех 52 оценочных комбинациях. На передовой модели GPT-5.5 средний абсолютный прирост точности составил 23,5 процентных пункта по сравнению с базовым уровнем без навыков. Для небольших моделей, таких как GPT-5.4-nano, показатели почти удвоились или выросли втрое. Эти улучшения производительности напрямую соответствуют ключевым потребностям предприятий, таким как точное извлечение цифр из контрактов, счетов и таблиц, а также операции в автоматизации AP, обработке претензий и соблюдении нормативных требований. Ян Ифань отмечает, что улучшение заключается в надежности, включая точное форматирование, самопроверку и аудируемые выходные данные, и эти выгоды проистекают из изучения процедур, а не запоминания ответов.

Фреймворк SkillOpt демонстрирует хорошую переносимость и совместимость. Эксперименты подтвердили, что фреймворк не зависит от среды выполнения и обеспечивает значительные улучшения в средах, поддерживаемых такими инструментами, как Codex CLI и Claude Code. Например, навык работы с электронными таблицами, полностью обученный в цикле Codex, может быть напрямую перенесен в Claude Code без каких-либо изменений, обеспечивая прирост производительности до 59,7 процентных пунктов по сравнению с собственным базовым уровнем Claude Code. Кроме того, артефакты навыков могут переноситься между моделями разных размеров: навык, оптимизированный для GPT-5.4, при развертывании на меньших моделях GPT-5.4-mini и GPT-5.4-nano по-прежнему дает положительные результаты. Финальные развернутые документы навыков никогда не превышали 2000 токенов, со средней длиной около 920 токенов, что делает их легко читаемыми и аудируемыми.

Процесс SkillOpt

Что касается затрат, для повседневных корпоративных сценариев фактическая нагрузка SkillOpt невелика. Ян Ифань упоминает, что в таких сообщественных фреймворках, как GBrain, обновления SkillOpt выполняются на Claude Sonnet, а средняя стоимость обучения одного навыка для одной задачи составляет от 1 до 5 долларов США, причем эти затраты на оптимизацию являются единовременными. Однако для эффективной работы фреймворка необходимы два условия: десятки репрезентативных примеров и поддающийся оценке сигнал обратной связи. Командам следует избегать его применения к открытым или субъективным задачам. В то же время SkillOpt может работать совместно с существующими стеками оркестрации (например, DSPy), являясь скорее дополнением, чем заменой. Заглядывая в будущее, сообщество открытого кода уже начало развертывать периодические запуски SkillOpt на прошлых траекториях агентов для создания экосистемы самооптимизирующихся плагинов для кодовых агентов. Ян Ифань считает, что навыки — это самый быстрый, дешевый и обратимый первый шаг для ИИ к самостоятельному обнаружению знаний и улучшению собственного поведения, и тот же образ мышления ведет к тому, что агенты в конечном итоге будут оптимизировать себя вплоть до собственных весов.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Группа аэропортов Западного Китая повысила пунктуальность рейсов до 93%, сократив время наземного обслуживания на 1,3 минуты
2026-06-12
Китайская компания Kunlun Robotics запускает проект по созданию команды в области воплощённого интеллекта в Пекинской экономико-технологической зоне развития
2026-06-12
Республика Корея и другие стороны 11-го числа совместно учредили Инновационный центр строительных роботов с ИИ
2026-06-12
Компания Hollysys представляет AI для интеллектуального предупреждения о режимах работы технологических процессов на основе XWorld
2026-06-12
Agile Robots демонстрирует силовое управление и воплощённый ИИ на выставке Robot Technology Japan 2026
2026-06-12
Китайский Alibaba Cloud выпустил Meoo CLI для однокликового развёртывания AI-проектов
2026-06-12
Китайская компания JD.com представила первый в Китае протокол автономных платежей для интеллектуальных агентов с уровнями от L0 до L5
2026-06-12
Международный художественный центр Лунган в Шэньчжэне совместно с Huawei создал первое в мире арт-пространство на базе HarmonyOS и ИИ
2026-06-12
Чемпионат мира по футболу 2026 года в США, Канаде и Мексике: робот Atlas от Boston Dynamics выполнит первый удар
2026-06-12
Умная аптека Galaxy General установила рекорд непрерывной автономной работы человекоподобного робота
2026-06-12
Последние новости
1
Немецкая Mubea Aviation получила контракт от Airbus Atlantic на поставку композитных компонентов для A350
2
Группа аэропортов Западного Китая повысила пунктуальность рейсов до 93%, сократив время наземного обслуживания на 1,3 минуты
3
Китайская компания Kunlun Robotics запускает проект по созданию команды в области воплощённого интеллекта в Пекинской экономико-технологической зоне развития
4
Singapore Airlines возобновляет рейсы в Мадрид с октября 2026 года
5
Balaena приобретает британские верфи группы APCL
6
Республика Корея и другие стороны 11-го числа совместно учредили Инновационный центр строительных роботов с ИИ
7
Японская компания Mazak представила оборудование FF-1250H L для обработки крупных деталей, изготовленных методом литья под давлением
8
Китайская компания Donghua Machinery представляет несколько серий термопластавтоматов для удовлетворения потребностей бытовой техники
9
Производственные мощности второго поколения аккумуляторов Blade от китайской BYD ограничены из-за узких мест в лазерной технологии
10
Немецкая компания Dürr представляет новое поколение системы ротационного погружения RoDip E^zy