
Обучение с подкреплением и верифицируемые вознаграждения: анализ эффективности RLVR для языковых моделей
В новом исследовании, проведённом в Университете Цинхуа и Шанхайском университете Цзяо Тун, рассматривается вопрос о том, помогает ли обучение с подкреплением и верифицируемыми вознаграждениями (RLVR) крупным языковым моделям лучше рассуждать или просто делает их более эффективными при повторении известных решений.
Исследование показало, что RLVR повышает вероятность получения правильного ответа с первой попытки, так называемого pass@1, но не открывает новых возможностей.
«RLVR не так эффективен, как считалось ранее, он не позволяет модели решать задачи, которые не может решить базовая модель», — пишет руководитель исследования Ян Юэ.
Генеральный директор OpenAI Сэм Альтман, по-видимому, знает об этих ограничениях. Он предположил, что сочетание способности к рассуждению с «гораздо более крупной моделью» посредством предварительного обучения может в конечном итоге привести к «первым фрагментам или своего рода признакам жизни в виде новых научных знаний», указывая на то, что масштаб, а не только обучение, может быть ключом к развитию способности к рассуждению.
RLVR в основном используется для обучения моделей рассуждения на задачах с проверяемыми результатами, таких как математика, программирование и визуальное мышление. Вместо того чтобы полагаться на обратную связь от человека, он использует автоматические сигналы, такие как правильные вычисления или пройденные тесты кода, в качестве критериев вознаграждения. Этот подход применялся в таких моделях, как o-series от OpenAI и Deepseek-R1.
Исследование показывает, что RLVR уменьшает разнообразие результатов, называемое энтропией, за счёт концентрации реакций вокруг нескольких путей решения с высокой наградой. Это повышает шансы на успех с первой попытки, но ограничивает
Читать на habr.com
