Китайский проект AReaL 2.0 стал открытым: инфраструктура обучения с подкреплением способствует непрерывному обучению агентов_Глобальные новости

Китайский проект AReaL 2.0 стал открытым: инфраструктура обучения с подкреплением способствует непрерывному обучению агентов

2026-07-03 10:33

В избр.

Репортаж от Wedoany，2 июля проект с открытым исходным кодом AReaL, посвящённый инфраструктуре обучения с подкреплением, выпустил версию 2.0. Цель — соединить обучение базовых моделей с применением современных интеллектуальных агентов, обеспечив эффективную поддержку обучения с подкреплением для сценариев использования агентов.

AReaL 2.0 ориентирован на агентов, уже работающих в реальных бизнес-сценариях, и предоставляет системную инфраструктуру для их непрерывного обучения в процессе эксплуатации. Эта версия позволяет записывать и систематизировать взаимодействия, возникающие при выполнении агентами реальных задач, и подключать их к последующим процессам обучения для постоянной оптимизации базовых моделей. Таким образом, агенты становятся всё более эффективными в безопасных и контролируемых условиях.

В настоящее время агенты внедряются в реальные производственные среды для выполнения сложных задач, таких как написание кода, поиск информации и вызов инструментов. Однако, несмотря на ежедневную работу, агентам сложно по-настоящему развиваться в процессе труда. В реальных бизнес-процессах агенты генерируют множество ценных данных, например, о выполнении задач, причинах сбоев при вызове инструментов, удовлетворённости пользователей и направлениях принятия решений. Большая часть этой информации сохраняется лишь в виде журналов, что затрудняет её стабильное и безопасное преобразование в повышение производительности.

AReaL 2.0 призван решить проблему дальнейшего развития агентов после их развёртывания. Разработчикам не нужно переписывать агентов с нуля: достаточно направить запросы, которые агент изначально отправлял большой модели, через единый интерфейс вывода AReaL 2.0, чтобы подключиться к процессу онлайн-обучения с подкреплением.

На примере агента Hermes: Hermes обычным образом получает задачи, планирует шаги и вызывает модели, а AReaL 2.0 в фоновом режиме записывает ключевые взаимодействия при выполнении задач. Затем, используя обратную связь или сигналы вознаграждения после завершения задачи, эти реальные траектории применяются для последующего обучения. Разработчики могут заменить Hermes на собственного агента и среду задач, построив аналогичный процесс онлайн-обучения с подкреплением для агента. Это означает, что повышение способностей агента больше не зависит исключительно от искусственно созданных данных, офлайн-обучения и повторного развёртывания: многократные диалоги, вызовы инструментов, результаты выполнения и сигналы обратной связи из реальных задач могут стать материалом для дальнейшего обучения модели.

Это особенно важно в корпоративных сценариях. Агенты в корпоративных рабочих процессах сталкиваются с реальными, сложными и постоянно меняющимися задачами, включая обновления кодовой базы, корректировку бизнес-процессов, изменение потребностей пользователей, а также модификацию инструментов и систем. Если способности агента после развёртывания остаются практически неизменными, ему сложно долгосрочно адаптироваться к реальной среде. AReaL 2.0 призван восполнить недостающее звено между «умением использовать инструменты» и «способностью учиться на их использовании».

В то же время непрерывное обучение в реальных бизнес-процессах не может сводиться к простому «сбору данных и повторному обучению». Агенты могут взаимодействовать с кодом, информацией о клиентах, корпоративными базами знаний и внутренними системами, поэтому в цепочке обучения необходимо учитывать требования контроля доступа, деидентификации данных, изоляции и аудита. AReaL 2.0 включает в системную архитектуру механизм управления данными, ориентированный на траектории агентов, что позволяет управлять и использовать данные из реальных задач в процессе обучения более безопасно и контролируемо.

В техническом отчёте команда AReaL отмечает, что ключевое узкое место для саморазвивающихся агентов заключается не только в самой модели или алгоритмах обучения с подкреплением, но и в отсутствии инфраструктуры онлайн-обучения с подкреплением, способной обслуживать реальных агентов. AReaL 2.0 представляет собой архитектурное обновление, ориентированное на приложения следующего поколения интеллектуальных агентов, объединяя сервисы агентов, траектории реальных задач, управление данными и онлайн-обучение с подкреплением, обеспечивая реализуемую инженерную основу для продолжения обучения агентов после развёртывания.

Проект AReaL был инициирован в 2024 году командами Ant Group, Университета Цинхуа и Гонконгского университета науки и технологий. В мае 2026 года AReaL выделился из Ant InclusionAI в независимое сообщество с открытым исходным кодом и присоединился к экосистемному проекту PyTorch Foundation Ecosystem, войдя в основную экосистему инфраструктуры обучения с подкреплением. С развитием независимого сообщества AReaL продолжает получать поддержку и участие со стороны промышленных и открытых экосистемных партнёров, включая команду Huawei Cloud и MindLab. В будущем AReaL планирует развиваться в направлениях онлайн-обучения с подкреплением, автоматизированной оценки и обучения мультимодальных агентов, совместно с сообществом продвигая развитие экосистемы саморазвивающихся агентов. В настоящее время технический отчёт и код AReaL 2.0 опубликованы в открытом доступе.

Китай

Информация и коммуникация Искусственный интеллект

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта：news@wedoany.com

Предыдущий：Первый восстановленный карьерный самосвал NTE240 компании China North Stock сошел с конвейера и введен в эксплуатацию на медном руднике Дэсин

Следующий：Заместитель секретаря Постоянного комитета Чанша, провинция Хунань, Китай, Фу Сюйдун посетил с инспекцией компанию Sinoboom