Китайский проект AReaL 2.0 стал открытым: инфраструктура обучения с подкреплением способствует непрерывному обучению агентов
2026-07-03 10:33
В избр.

Репортаж от Wedoany,2 июля проект с открытым исходным кодом AReaL, посвящённый инфраструктуре обучения с подкреплением, выпустил версию 2.0. Цель — соединить обучение базовых моделей с применением современных интеллектуальных агентов, обеспечив эффективную поддержку обучения с подкреплением для сценариев использования агентов.

AReaL 2.0 ориентирован на агентов, уже работающих в реальных бизнес-сценариях, и предоставляет системную инфраструктуру для их непрерывного обучения в процессе эксплуатации. Эта версия позволяет записывать и систематизировать взаимодействия, возникающие при выполнении агентами реальных задач, и подключать их к последующим процессам обучения для постоянной оптимизации базовых моделей. Таким образом, агенты становятся всё более эффективными в безопасных и контролируемых условиях.

В настоящее время агенты внедряются в реальные производственные среды для выполнения сложных задач, таких как написание кода, поиск информации и вызов инструментов. Однако, несмотря на ежедневную работу, агентам сложно по-настоящему развиваться в процессе труда. В реальных бизнес-процессах агенты генерируют множество ценных данных, например, о выполнении задач, причинах сбоев при вызове инструментов, удовлетворённости пользователей и направлениях принятия решений. Большая часть этой информации сохраняется лишь в виде журналов, что затрудняет её стабильное и безопасное преобразование в повышение производительности.

AReaL 2.0 призван решить проблему дальнейшего развития агентов после их развёртывания. Разработчикам не нужно переписывать агентов с нуля: достаточно направить запросы, которые агент изначально отправлял большой модели, через единый интерфейс вывода AReaL 2.0, чтобы подключиться к процессу онлайн-обучения с подкреплением.

На примере агента Hermes: Hermes обычным образом получает задачи, планирует шаги и вызывает модели, а AReaL 2.0 в фоновом режиме записывает ключевые взаимодействия при выполнении задач. Затем, используя обратную связь или сигналы вознаграждения после завершения задачи, эти реальные траектории применяются для последующего обучения. Разработчики могут заменить Hermes на собственного агента и среду задач, построив аналогичный процесс онлайн-обучения с подкреплением для агента. Это означает, что повышение способностей агента больше не зависит исключительно от искусственно созданных данных, офлайн-обучения и повторного развёртывания: многократные диалоги, вызовы инструментов, результаты выполнения и сигналы обратной связи из реальных задач могут стать материалом для дальнейшего обучения модели.

Это особенно важно в корпоративных сценариях. Агенты в корпоративных рабочих процессах сталкиваются с реальными, сложными и постоянно меняющимися задачами, включая обновления кодовой базы, корректировку бизнес-процессов, изменение потребностей пользователей, а также модификацию инструментов и систем. Если способности агента после развёртывания остаются практически неизменными, ему сложно долгосрочно адаптироваться к реальной среде. AReaL 2.0 призван восполнить недостающее звено между «умением использовать инструменты» и «способностью учиться на их использовании».

В то же время непрерывное обучение в реальных бизнес-процессах не может сводиться к простому «сбору данных и повторному обучению». Агенты могут взаимодействовать с кодом, информацией о клиентах, корпоративными базами знаний и внутренними системами, поэтому в цепочке обучения необходимо учитывать требования контроля доступа, деидентификации данных, изоляции и аудита. AReaL 2.0 включает в системную архитектуру механизм управления данными, ориентированный на траектории агентов, что позволяет управлять и использовать данные из реальных задач в процессе обучения более безопасно и контролируемо.

В техническом отчёте команда AReaL отмечает, что ключевое узкое место для саморазвивающихся агентов заключается не только в самой модели или алгоритмах обучения с подкреплением, но и в отсутствии инфраструктуры онлайн-обучения с подкреплением, способной обслуживать реальных агентов. AReaL 2.0 представляет собой архитектурное обновление, ориентированное на приложения следующего поколения интеллектуальных агентов, объединяя сервисы агентов, траектории реальных задач, управление данными и онлайн-обучение с подкреплением, обеспечивая реализуемую инженерную основу для продолжения обучения агентов после развёртывания.

Проект AReaL был инициирован в 2024 году командами Ant Group, Университета Цинхуа и Гонконгского университета науки и технологий. В мае 2026 года AReaL выделился из Ant InclusionAI в независимое сообщество с открытым исходным кодом и присоединился к экосистемному проекту PyTorch Foundation Ecosystem, войдя в основную экосистему инфраструктуры обучения с подкреплением. С развитием независимого сообщества AReaL продолжает получать поддержку и участие со стороны промышленных и открытых экосистемных партнёров, включая команду Huawei Cloud и MindLab. В будущем AReaL планирует развиваться в направлениях онлайн-обучения с подкреплением, автоматизированной оценки и обучения мультимодальных агентов, совместно с сообществом продвигая развитие экосистемы саморазвивающихся агентов. В настоящее время технический отчёт и код AReaL 2.0 опубликованы в открытом доступе.

Эта новость является результатом компиляции и перепечатки информации из глобального Интернета и стратегических партнеров. Она предназначена только для читателей. Если у вас возникнут какие-либо нарушения или другие проблемы, пожалуйста, своевременно сообщите нам. Этот сайт изменить или удалить ее. Перепечатка этой статьи без официального разрешения строго запрещена.электронная почта:news@wedoany.com
Связанные продукты
Связанные рекомендации
В Шанхае основана компания по технологиям воплощённого интеллекта, полностью принадлежащая Henggong Precision
2026-07-03
Китайская компания Lingtong Robotics учредила в Шанхае компанию по разработке воплощённых интеллектуальных роботов
2026-07-03
Кения и Египет укрепляют сотрудничество в области искусственного интеллекта и цифровой трансформации
2026-07-03
Китайская Lenovo запускает новые услуги безопасности для борьбы с ИИ-рисками
2026-07-03
Myriota запускает гибридную сеть 5G-спутников и сотовой связи для IoT
2026-07-03
Узбекистан и катарская MBK Holding обсудили сотрудничество в сфере ИИ и технологий
2026-07-03
Университет Авейру представил спутник CubeSat и открыл аэрокосмическую лабораторию
2026-07-03
Китайская компания Zhongwei Semiconductor начала отгрузку собственных чипов памяти во втором квартале
2026-07-03
Португальская компания Priberam разработала первое приложение для транскрипции на основе модели AMÁLIA
2026-07-03
Китайская Tripo AI завершила раунд финансирования A3 на сумму 150 миллионов долларов
2026-07-03
Последние новости
1
В Шанхае основана компания по технологиям воплощённого интеллекта, полностью принадлежащая Henggong Precision
2
Китайская компания Lingtong Robotics учредила в Шанхае компанию по разработке воплощённых интеллектуальных роботов
3
Кения и Египет укрепляют сотрудничество в области искусственного интеллекта и цифровой трансформации
4
Китайская Lenovo запускает новые услуги безопасности для борьбы с ИИ-рисками
5
Myriota запускает гибридную сеть 5G-спутников и сотовой связи для IoT
6
Узбекистан и катарская MBK Holding обсудили сотрудничество в сфере ИИ и технологий
7
Университет Авейру представил спутник CubeSat и открыл аэрокосмическую лабораторию
8
Китайская компания Zhongwei Semiconductor начала отгрузку собственных чипов памяти во втором квартале
9
Португальская компания Priberam разработала первое приложение для транскрипции на основе модели AMÁLIA
10
Международная консалтинговая компания в сфере недвижимости и строительства Gleeds вошла в рамочное соглашение правительства Великобритании на сумму 3,5 млрд фунтов стерлингов