Китайская компания Xiaomi представила HarnessX: производительность AI-агентов в среднем повышается на 14,5%_Глобальные новости

Китайская компания Xiaomi представила HarnessX: производительность AI-агентов в среднем повышается на 14,5%

2026-06-25 10:15

В избр.

Репортаж от Wedoany，Исследователи Xiaomi представили фреймворк HarnessX, предназначенный для решения инженерного узкого места, связанного с ограничениями «обвязки» (harness) в производительности корпоративных AI-агентов. Данный фреймворк рассматривает AI-обвязку как компонуемый объект и самостоятельно улучшает её код, повышая производительность AI-систем в таких областях, как программная инженерия и веб-взаимодействие.

В настоящее время обвязка AI-приложений в основном статична и создаётся вручную, не обладая способностью к автоматическому улучшению на основе данных выполнения. Это становится ключевым фактором, ограничивающим AI-агентов в выполнении сложных долгосрочных задач. Традиционная разработка обвязки сталкивается с тремя основными проблемами: во-первых, она статична и требует ручного переписывания; во-вторых, архитектурная запутанность приводит к тому, что корректировка одних компонентов может нарушить работу других; в-третьих, обвязка и базовая модель оптимизируются изолированно, а траектории выполнения часто отбрасываются.

HarnessX решает эти узкие места с помощью «единой фабрики обвязки». Ключевое нововведение заключается в рассмотрении обвязки как «объекта первого класса», то есть независимой сериализуемой, модульной и заменяемой сущности, что позволяет разделить конфигурацию модели и конфигурацию обвязки. Данный подход разбивает поведение агента на такие компоненты, как сборка контекста, управление памятью, экосистема инструментов, поток управления и наблюдаемость, причём каждое поведение вставляется в виде «процессора» в хуки жизненного цикла обвязки.

Структура HarnessX

Для автоматизации оптимизации модульной структуры HarnessX представляет AEGIS — эволюционный движок, управляемый траекториями. Этот движок рассматривает адаптацию обвязки как задачу обучения с подкреплением и, для противодействия таким патологиям, как хакерство вознаграждений, катастрофическое забывание и недостаточное исследование, разрабатывает четырёхэтапный конвейер, включающий диджестер, планировщик, эволюционер, а также критик и шлюз. Диджестер сжимает траектории выполнения в структурированные сводки, планировщик анализирует сводки для поиска структурных изменений, эволюционер генерирует правки кода и тесты, а критик и шлюз служат для предотвращения хакерства вознаграждений и катастрофического забывания.

AEGIS

HarnessX также реализует совместную эволюцию обвязки и модели. С помощью алгоритма GRPO (Group Relative Policy Optimization) между обвязками он собирает траектории выполнения, сгенерированные на разных версиях обвязки, в сигнал обучения с подкреплением для модели, позволяя модели интернализировать продвинутые стратегии, такие как использование новых инструментов.

Совместная эволюция обвязки и модели

Практическое тестирование проводилось на пяти бенчмарках, охватывающих программную инженерию, многораундовые диалоги службы поддержки, веб-навигацию, открытые многошаговые рассуждения и воплощённое планирование. В тестах мета-агент, управляемый Claude Opus 4.6, отвечал за анализ логов и написание кода, а в качестве агентов задач выступали Claude Sonnet 4.6, GPT-5.4 и модель с открытыми весами Qwen3.5-9B. Результаты показали, что динамическая эволюционная обвязка повысила производительность в 14 из 15 комбинаций модель-бенчмарк, обеспечив средний абсолютный прирост производительности в +14,5%. Наибольший выигрыш получила самая слабая модель с открытыми весами Qwen3.5-9B, показав скачок производительности на +44,0% в бенчмарке воплощённого планирования ALFWorld и на +18,2% в бенчмарке программной инженерии SWE-bench Verified. Использование данных, сгенерированных эволюционной обвязкой, для обучения базовой модели привело к дополнительному среднему приросту производительности в +4,7%.

Производительность HarnessX

В настоящее время HarnessX полагается на мощные закрытые передовые модели (например, Claude Opus) в качестве мета-агентов для переписывания кода обвязки; способность моделей с открытыми весами выступать в роли мета-агентов ещё предстоит проверить. Кроме того, если базовая модель сама по себе не способна выполнять сложные рабочие процессы, фреймворк не сможет повысить общую производительность. Тем не менее, исследователи планируют опубликовать код в будущих обновлениях, и HarnessX предлагает практикам новый подход, основанный на оптимизации инженерии обвязки, а не на простом масштабировании моделей.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Китай