Шанхайская лаборатория искусственного интеллекта представила фреймворк Self-Harness: производительность агентов повысилась на 60%
2026-06-23 10:39
В избр.

Репортаж от Wedoany,Исследователи из Шанхайской лаборатории искусственного интеллекта (Shanghai Artificial Intelligence Laboratory) предложили новую парадигму под названием «Self-Harness», которая позволяет агентам на основе больших языковых моделей (LLM) систематически улучшать собственные правила работы, не полагаясь на инженеров-людей или более мощные внешние модели.

Производительность агентов на основе LLM зависит не только от базовой модели, но и от их фреймворка, который включает системные подсказки, инструменты, память, правила проверки, стратегии выполнения, логику оркестрации и процедуры восстановления после сбоев. Типичные сбои агентов часто возникают из-за фреймворка, а не самой модели. Например, агент может сообщить об успешном выполнении, не проверив ответ модели, или многократно повторять неудачные операции. SWE-agent, Claude Code, Codex и OpenHands являются популярными примерами фреймворков.

Ханфан Чжан, первый автор статьи о Self-Harness, отметил, что настоящим узким местом ручной инженерии фреймворков является зависимость от ситуативной отладки, а не от систематической обратной связи. Многие правки основаны на интуиции или небольшом количестве неудачных случаев, что затрудняет адаптацию к быстро развивающимся LLM. Парадигма Self-Harness позволяет агентам на основе LLM достигать самоэволюции через трехэтапный итеративный цикл.

Цикл начинается с этапа выявления слабых мест: агент выполняет задачи, генерируя траектории выполнения, классифицирует неудачные траектории и обнаруживает специфические для модели паттерны сбоев. Затем следует этап предложения изменений фреймворка: агент, используя роль «предлагающего», генерирует набор разнообразных и минимальных модификаций фреймворка, каждая из которых нацелена на конкретный механизм сбоя. Наконец, этап проверки предложений: система оценивает кандидатные изменения с помощью регрессионного тестирования, принимая их только в том случае, если правка не приводит к снижению производительности на сохраненных задачах. Если несколько кандидатов проходят тестирование, они объединяются в следующую версию фреймворка.

Исследователи оценили Self-Harness на бенчмарке Terminal-Bench-2.0, который тестирует выполнение на основе инструментов, включая управление артефактами, использование команд, проверку поведения и восстановление после ошибок выполнения. Они применили Self-Harness к моделям MiniMax M2.5, Qwen3.5-35B-A3B и GLM-5. Количественные результаты показали, что агенты повысили производительность за счет автоматического редактирования фреймворка, при этом относительное улучшение для разных моделей на сохраненных задачах составило от 33% до 60%.

self-harness

Эксперименты показали, что Self-Harness вносит целенаправленные изменения, отражающие повторяющиеся проблемы каждой модели в процессе выполнения. Например, MiniMax M2.5 в базовом фреймворке бесконечно исследовала конфигурации наборов данных до истечения времени ожидания; система исправила это, добавив правило «прерывания цикла» (остановка после 50 вызовов инструментов и перенаправление метода), а также требование как можно раньше создавать начальную версию. Qwen-3.5 после ошибки перезаписи файла повторяла ту же команду; система ввела строгую дисциплину повторных попыток (запрет на полное повторение команд) и механизм немедленного воссоздания потерянных артефактов после файловых ошибок. GLM-5 с трудом сохраняла изменения окружения между разными командами; ее самогенерируемый фреймворк ввел правила персистентности переменной PATH, ограничения внешних вычислений и исправления любых неудачных проверок целостности перед завершением выполнения.

результаты self-harness

Чжан отметил, что автоматизированная инженерия фреймворков требует вычислительных затрат на повторную генерацию, параллельную оценку и регрессионное тестирование. Система также зависит от точности конвейера оценки, полагаясь в экспериментах на строгие, детерминированные верификаторы. Он считает, что оптимальными целями развертывания являются такие области, как кодирование, автоматизация внутренних рабочих процессов и конвейеры данных DevOps, где сбои измеримы, а пробы и ошибки относительно безопасны. Области с субъективной оценкой и высокими затратами, такие как медицинские решения, критически важная инфраструктура безопасности или юридические решения, следует избегать полной автоматизации. По мере усиления базовых моделей фреймворки будут расширяться, подключая более богатые внешние среды. Роль инженеров сместится от ручного исправления отдельных подсказок или вызовов инструментов к проектированию систем обратной связи, которые делают возможным улучшение агентов.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Корейская публичная AI-платформа Naver объявила о прогрессе, охватив более 40 организаций
2026-06-24
Китайская компания Beisen запускает платформу AI HR-экспертов Mavens
2026-06-24
Хорватский CARNET выделил контракты на 2,9 млн евро для повышения кибербезопасности МСП
2026-06-24
Qualcomm объявила список 15 стартапов из Азиатско-Тихоокеанского региона в рамках программы AI Innovators
2026-06-24
Технология коммутатора CXL следующего поколения от Panmnesia принята на ISCA 2026
2026-06-24
Американская компания Mouser Electronics запускает онлайн-центр ресурсов по безопасности в ответ на Закон ЕС о киберустойчивости
2026-06-24
Американская компания Apple завершила пробное производство чипа A21 по 2-нм техпроцессу TSMC
2026-06-24
Apple планирует начать массовое производство первого складного iPhone в июле
2026-06-24
Южнокорейская SK Hynix направит 45,45 трлн вон на строительство заводов через ADR
2026-06-24
Японская SoftBank делает ставку на физический ИИ, Масаёси Сон заявил, что роботы уже вышли на этап серийного производства на заводе
2026-06-24
Последние новости
1
Дочерняя компания Saudi RSI получила контракт на электромеханические работы в Diriyah на сумму 94 млн долларов
2
Совместное предприятие Hassan Allam Construction и UCC Saudi получило контракт на $719 млн на строительство отеля Waldorf Astoria в Саудовской Аравии
3
Компания Majid Investment and Urban Development из ОАЭ и египетская Midar подписали соглашение о разработке стоимостью 3,1 миллиарда долларов
4
ICO и Bankinter предоставили Lignum Tech финансирование в размере 11,51 млн евро для расширения мощностей индустриального строительства
5
Британская компания Oakmere планирует построить 110 домов в Ланкастере
6
Великобритания планирует построить шесть заводов по опреснению морской воды на юго-востоке Англии
7
Northtree приобретает Lincoln House в Манчестере, Великобритания, за 55 миллионов фунтов стерлингов
8
Доклад Канадского института климата: к 2100 году адаптация инфраструктуры к климату позволит экономить от 4 до 9 миллиардов канадских долларов в год
9
В Сямэне завершен монтаж первого стального коробчатого пролета судоходного моста Люудань на участке Сямэнь моста Сяцзинь
10
Британский проект We Build Eco обеспечивает точность распила деревянных каркасов до 1,5 мм