Репортаж от Wedoany,Высокая стоимость обучения моделей ИИ-рассуждений давно является проблемой для корпоративных команд. Исследователи JD.com в сотрудничестве с рядом академических институтов предложили новую парадигму обучения под названием RLSD, направленную на создание пользовательских агентов рассуждения с использованием меньших вычислительных ресурсов. Эта технология сочетает обучение с подкреплением и самодистилляцию, решая проблемы разреженности сигнала или больших вычислительных затрат, характерные для традиционных методов.

В экспериментах модель, обученная с помощью RLSD, достигла средней точности 56,18% на нескольких бенчмарках визуального рассуждения, превзойдя базовую модель и стандартный метод RLVR. Соавтор работы Ян Чэньсюй пояснил, что RLSD разделяет направление и величину обновления, используя верифицируемый сигнал вознаграждения для определения направления и добиваясь пошаговой обратной связи на уровне токенов за счет самодистилляции. Это позволяет избежать проблемы утечки информации и поддерживает стабильность обучения.
RLSD требует лишь одного дополнительного прямого прохода, а скорость его сходимости примерно в два раза выше, чем у традиционных методов. Он подходит для задач с верифицируемым вознаграждением, таких как компиляция кода или математическая верификация, и может гибко использовать привилегированную информацию. Эту технологию можно легко интегрировать в существующие открытые фреймворки, что открывает компаниям новый путь для оптимизации моделей с использованием внутренних данных.
Данный материал скомпилирован платформой Wedoany. При цитировании материалов, созданных с помощью искусственного интеллекта (ИИ), необходимо обязательно указывать источник — «Wedoany». В случае выявления нарушения прав или иных проблем просим своевременно информировать нас. Сайт оперативно внесёт изменения или удалит материал.Электронная почта: news@wedoany.com








