JD.com совместно с исследовательскими институтами представила технологию RLSD для снижения затрат на обучение моделей ИИ-рассуждений
2026-04-29 15:14
В избр.

Репортаж от Wedoany,Высокая стоимость обучения моделей ИИ-рассуждений давно является проблемой для корпоративных команд. Исследователи JD.com в сотрудничестве с рядом академических институтов предложили новую парадигму обучения под названием RLSD, направленную на создание пользовательских агентов рассуждения с использованием меньших вычислительных ресурсов. Эта технология сочетает обучение с подкреплением и самодистилляцию, решая проблемы разреженности сигнала или больших вычислительных затрат, характерные для традиционных методов.

rlvr

В экспериментах модель, обученная с помощью RLSD, достигла средней точности 56,18% на нескольких бенчмарках визуального рассуждения, превзойдя базовую модель и стандартный метод RLVR. Соавтор работы Ян Чэньсюй пояснил, что RLSD разделяет направление и величину обновления, используя верифицируемый сигнал вознаграждения для определения направления и добиваясь пошаговой обратной связи на уровне токенов за счет самодистилляции. Это позволяет избежать проблемы утечки информации и поддерживает стабильность обучения.

RLSD требует лишь одного дополнительного прямого прохода, а скорость его сходимости примерно в два раза выше, чем у традиционных методов. Он подходит для задач с верифицируемым вознаграждением, таких как компиляция кода или математическая верификация, и может гибко использовать привилегированную информацию. Эту технологию можно легко интегрировать в существующие открытые фреймворки, что открывает компаниям новый путь для оптимизации моделей с использованием внутренних данных.

Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com

Связанные продукты
Связанные рекомендации
Tencent Docs интегрируется с базой знаний WorkBuddy: одна авторизация для доступа ИИ ко всему процессу
2026-04-29
Majestic Labs выпускает ИИ-сервер Prometheus с конфигурацией памяти 128 ТБ в одном корпусе, преодолевая узкое место «стены памяти»
2026-04-29
Американская компания Poolside выпускает открытую модель программирования Laguna XS.2
2026-04-29
Blaize, Nokia и Datacomm развертывают гибридный ИИ в Индонезии
2026-04-29
RFOptic запустила 8-ГГц оптоволоконную линию RFoF с поддержкой 5G и C-диапазона
2026-04-29
u-blox представляет GNSS-модуль ZED-X20P-01B, обеспечивающий дециметровую точность
2026-04-29
SouthernCrossAI присоединяется к Equinix Fabric AI и развёртывает суверенные AI-инференсные узлы на базе SambaNova SN50 в Австралии
2026-04-29
ЕС планирует переориентировать цифровое регулирование на облачные сервисы и ИИ
2026-04-29
Американские технологические гиганты инвестируют 600 миллиардов в ИИ, инвесторы ждут отдачи
2026-04-29
JD.com совместно с исследовательскими институтами представила технологию RLSD для снижения затрат на обучение моделей ИИ-рассуждений
2026-04-29
Последние новости
1
Tencent Docs интегрируется с базой знаний WorkBuddy: одна авторизация для доступа ИИ ко всему процессу
2
CRBC выиграла тендеры на два строительных проекта в Танзании, включая спортивный центр и центр профессионального обучения
3
В Индии завершены фундаментные работы на железнодорожном мосту через реку Сабармати, начинается возведение верхнего строения
4
Majestic Labs выпускает ИИ-сервер Prometheus с конфигурацией памяти 128 ТБ в одном корпусе, преодолевая узкое место «стены памяти»
5
Американская компания Poolside выпускает открытую модель программирования Laguna XS.2
6
Accenture инвестирует в американскую General Robotics для ускорения автономной работы на базе ИИ
7
Китайский самолет C909 начал выполнять рейсы по второму регулярному маршруту в Центральную Азию
8
Hormel Foods завершила продажу бизнеса по производству цельных индеек компании Life Science Innovations
9
Беспроводной акустический преобразователь Emerson обеспечивает онлайн-мониторинг состояния клапанов
10
В Бодерсерте (Австралия) завершена реконструкция дороги Бодерсерт-Бинли — двухполосный участок расширен до четырех полос