Китайская компания Xiaomi представила HarnessX: производительность AI-агентов в среднем повышается на 14,5%
2026-06-25 10:15
В избр.

Репортаж от Wedoany,Исследователи Xiaomi представили фреймворк HarnessX, предназначенный для решения инженерного узкого места, связанного с ограничениями «обвязки» (harness) в производительности корпоративных AI-агентов. Данный фреймворк рассматривает AI-обвязку как компонуемый объект и самостоятельно улучшает её код, повышая производительность AI-систем в таких областях, как программная инженерия и веб-взаимодействие.

В настоящее время обвязка AI-приложений в основном статична и создаётся вручную, не обладая способностью к автоматическому улучшению на основе данных выполнения. Это становится ключевым фактором, ограничивающим AI-агентов в выполнении сложных долгосрочных задач. Традиционная разработка обвязки сталкивается с тремя основными проблемами: во-первых, она статична и требует ручного переписывания; во-вторых, архитектурная запутанность приводит к тому, что корректировка одних компонентов может нарушить работу других; в-третьих, обвязка и базовая модель оптимизируются изолированно, а траектории выполнения часто отбрасываются.

HarnessX решает эти узкие места с помощью «единой фабрики обвязки». Ключевое нововведение заключается в рассмотрении обвязки как «объекта первого класса», то есть независимой сериализуемой, модульной и заменяемой сущности, что позволяет разделить конфигурацию модели и конфигурацию обвязки. Данный подход разбивает поведение агента на такие компоненты, как сборка контекста, управление памятью, экосистема инструментов, поток управления и наблюдаемость, причём каждое поведение вставляется в виде «процессора» в хуки жизненного цикла обвязки.

Структура HarnessX

Для автоматизации оптимизации модульной структуры HarnessX представляет AEGIS — эволюционный движок, управляемый траекториями. Этот движок рассматривает адаптацию обвязки как задачу обучения с подкреплением и, для противодействия таким патологиям, как хакерство вознаграждений, катастрофическое забывание и недостаточное исследование, разрабатывает четырёхэтапный конвейер, включающий диджестер, планировщик, эволюционер, а также критик и шлюз. Диджестер сжимает траектории выполнения в структурированные сводки, планировщик анализирует сводки для поиска структурных изменений, эволюционер генерирует правки кода и тесты, а критик и шлюз служат для предотвращения хакерства вознаграждений и катастрофического забывания.

AEGIS

HarnessX также реализует совместную эволюцию обвязки и модели. С помощью алгоритма GRPO (Group Relative Policy Optimization) между обвязками он собирает траектории выполнения, сгенерированные на разных версиях обвязки, в сигнал обучения с подкреплением для модели, позволяя модели интернализировать продвинутые стратегии, такие как использование новых инструментов.

Совместная эволюция обвязки и модели

Практическое тестирование проводилось на пяти бенчмарках, охватывающих программную инженерию, многораундовые диалоги службы поддержки, веб-навигацию, открытые многошаговые рассуждения и воплощённое планирование. В тестах мета-агент, управляемый Claude Opus 4.6, отвечал за анализ логов и написание кода, а в качестве агентов задач выступали Claude Sonnet 4.6, GPT-5.4 и модель с открытыми весами Qwen3.5-9B. Результаты показали, что динамическая эволюционная обвязка повысила производительность в 14 из 15 комбинаций модель-бенчмарк, обеспечив средний абсолютный прирост производительности в +14,5%. Наибольший выигрыш получила самая слабая модель с открытыми весами Qwen3.5-9B, показав скачок производительности на +44,0% в бенчмарке воплощённого планирования ALFWorld и на +18,2% в бенчмарке программной инженерии SWE-bench Verified. Использование данных, сгенерированных эволюционной обвязкой, для обучения базовой модели привело к дополнительному среднему приросту производительности в +4,7%.

Производительность HarnessX

В настоящее время HarnessX полагается на мощные закрытые передовые модели (например, Claude Opus) в качестве мета-агентов для переписывания кода обвязки; способность моделей с открытыми весами выступать в роли мета-агентов ещё предстоит проверить. Кроме того, если базовая модель сама по себе не способна выполнять сложные рабочие процессы, фреймворк не сможет повысить общую производительность. Тем не менее, исследователи планируют опубликовать код в будущих обновлениях, и HarnessX предлагает практикам новый подход, основанный на оптимизации инженерии обвязки, а не на простом масштабировании моделей.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Китайские идеальные очки AI Livis получили 6 новых функций в OTA-обновлении
2026-06-25
Американская компания Skyward открыла предзаказ на спутниковый интернет
2026-06-25
Руководитель Oracle подтвердил участие в мероприятии TCW для обсуждения инфраструктуры ИИ
2026-06-25
Индийский штат Карнатака изучает механизмы финансирования биотехнологий и инновации в области ИИ
2026-06-25
Компания Silicon Labs (США) развернула тестовую сеть Matter-over-Thread на 200 узлов
2026-06-25
Американская компания brightplace запускает AI-платформу для поиска аренды жилья
2026-06-25
Финская HMD Secure и другие компании разрабатывают решение для связи NR Sidelink
2026-06-25
Польский оператор связи Plush запускает новую коммуникационную платформу бренда
2026-06-25
Польша приняла стратегию цифровизации: после 2030 года планируется ежегодно инвестировать 100 миллиардов злотых
2026-06-25
Австралийская RemSense привлекла 1,21 млн австралийских долларов на развитие платформы «виртуальный завод» и ИИ-системы анализа
2026-06-25
Последние новости
1
Modern Spaace Realty предлагает построить 826 квартир в высотных домах в Бангалоре, Индия
2
Британская компания Radius Housing совместно с Simon Community запускает реконструкцию молодёжного общежития в Белфасте стоимостью 5 млн фунтов стерлингов
3
Ожидается, что к 2029 году емкость для хранения донных отложений в порту Кливленда (США) достигнет насыщения
4
Британская MCR приобретает студенческое общежитие на 862 койко-места в Престоне, расширяя портфель активов платформы Flow Student
5
Департамент науки и технологий Министерства промышленности и информатизации Китая опубликовал список типовых случаев применения искусственного интеллекта на 2025 год
6
В проекте модернизации смоляного литья компании China Xinghuo CNC состоится семинар по безопасности производства
7
Министр транспорта США осмотрел проект расширения порта Бернс-Харбор стоимостью 100 миллионов долларов
8
Администрация портов Мэриленда (США) приобрела 17 акров промышленной недвижимости в порту за 6 миллионов долларов
9
Новый асфальтовый завод британской группы Hillhouse Quarry откроется осенью этого года
10
Корейская корпорация земельного и жилищного строительства разрабатывает программное обеспечение на основе ИИ для информационного моделирования зданий, позволяющее сократить объём земляных работ на 7%