Об этом же в других СМИ

habr.com / 1 год назад

Большие языковые модели в медицине: результаты исследования Оксфорда

habr.com / 1 год назад

Google продолжает использовать контент для обучения ИИ, несмотря на отказы издателей

habr.com / 1 год назад

Курс Практикума по Kubernetes: добавили тариф «самостоятельное обучение»

hitechexpert.top / 1 год назад

Индикатор состояния батареи доступен для последней модели Pixel

habr.com / 1 год назад

Microsoft выпустила Phi-4 — семейство компактных рассуждающих языковых моделей с открытым исходным кодом

Больше по теме

24.04.2025 - 16:41 / habr.com

Обучение с подкреплением и верифицируемые вознаграждения: анализ эффективности RLVR для языковых моделей

В новом исследовании, проведённом в Университете Цинхуа и Шанхайском университете Цзяо Тун, рассматривается вопрос о том, помогает ли обучение с подкреплением и верифицируемыми вознаграждениями (RLVR) крупным языковым моделям лучше рассуждать или просто делает их более эффективными при повторении известных решений.

Исследование показало, что RLVR повышает вероятность получения правильного ответа с первой попытки, так называемого pass@1, но не открывает новых возможностей.

«RLVR не так эффективен, как считалось ранее, он не позволяет модели решать задачи, которые не может решить базовая модель», — пишет руководитель исследования Ян Юэ.

Генеральный директор OpenAI Сэм Альтман, по-видимому, знает об этих ограничениях. Он предположил, что сочетание способности к рассуждению с «гораздо более крупной моделью» посредством предварительного обучения может в конечном итоге привести к «первым фрагментам или своего рода признакам жизни в виде новых научных знаний», указывая на то, что масштаб, а не только обучение, может быть ключом к развитию способности к рассуждению.

RLVR в основном используется для обучения моделей рассуждения на задачах с проверяемыми результатами, таких как математика, программирование и визуальное мышление. Вместо того чтобы полагаться на обратную связь от человека, он использует автоматические сигналы, такие как правильные вычисления или пройденные тесты кода, в качестве критериев вознаграждения. Этот подход применялся в таких моделях, как o-series от OpenAI и Deepseek-R1.

Исследование показывает, что RLVR уменьшает разнообразие результатов, называемое энтропией, за счёт концентрации реакций вокруг нескольких путей решения с высокой наградой. Это повышает шансы на успех с первой попытки, но ограничивает

связь общество роды интересное Сэм Альтман mefdayy Шанхай

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

JetBrains открыла код Mellum — компактной языковой модели для завершения кода habr.com / 1 год назад

Xiaomi выпустила MiMo — открытую языковую модель с функцией рассуждения habr.com / 1 год назад

Meta* представляет предварительный просмотр API для своих моделей искусственного интеллекта Llama habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

14.07 / 00:28

медицина люди здоровье общество журналист Частые ночные походы в туалет — о чем пытается предупредить ваше тело

Ученые выяснили, почему привычка просыпаться по ночам ради посещения уборной может указывать на скрытые проблемы со здоровьем, и как с этим бороться.

14.07 / 00:01

технологии SpaceX общество сад и огород интересное Украинские изобретатели участвуют в конкурсе NASA с проектом марсианского самолета

Он сможет «прыгать» по полярным шапкам Марса, собирать на них лед и превращать в топливо

13.07 / 23:22

ученые искусственный интеллект история самит О чем пользователи чаще всего просят ChatGPT — ответ ученых

Ученые проанализировали сотни тысяч диалогов и обнаружили необычные закономерности в запросах пользователей.

13.07 / 22:29

продукты продукты питания культура самит Здоровье и красота Пять доступных трав, которые снижают риски развития сахарного диабета

Традиционный салат-латук стремительно теряет популярность среди диетологов. Ему на смену приходят более концентрированные растительные источники.

13.07 / 22:29

люди ученые животные наука общество Ключ к продлению жизни до 240 лет ищут сингапурские ученые

Хронические скрытые процессы внутри тканей признаны главным катализатором старения. Они вызывают опасные поражения сердца и мозга у людей.

13.07 / 22:03

Samsung технологии экономика прогноз самит Samsung готовит к выпуску новый бюджетный смартфон Galaxy A07s

Пока компания официально не анонсировала устройство, однако обнаруженная прошивка подтверждает, что работа над смартфоном уже идет.

13.07 / 21:14

история самит крипто gemini Новая модель Meta* обходит Opus 4.8 и GPT-5.5 в агентских задачах — и стоит $1.25 за миллион токенов

Meta* Superintelligence Labs представила Muse Spark 1.1 — мультимодальную reasoning-модель, заточенную под агентские сценарии (Meta* признана экстремистской и запрещена в России). Релиз вышел всего через три месяца после первой Muse Spark, с которой Meta* в апреле вернулась в гонку фронтирных моделей. Глава Meta Superintelligence Labs Александр Ванг заявил, что по многим агентским тестам новая модель соперничает с GPT-5.5 и Claude Opus 4.8, а в использовании инструментов — лидирует.

13.07 / 20:51

бюджет школы интересное Митап ко Дню сисадмина: три доклада из практики

Работающие серверы, спокойный сон руководства и сохранность данных — если за это отвечаете вы, то 17 июля Школа 21 в Ярославле собирает вечер как раз для вас.

13.07 / 20:32

Samsung технологии золото общество евро Ремонт смартфонов Samsung стал дороже: компания повысила цены на запчасти

По данным издания The Chosun, стоимость материалов для ремонта смартфонов Samsung в среднем выросла на 5%. Это означает, что средний ремонт мобильного устройства теперь обходится примерно на 11 000 южнокорейских вон дороже — около 7,4 доллара, 6,5 евро, 5,5 фунта стерлингов или 705 индийских рупий.

13.07 / 19:52

люди общество лечение сон деменция Какое поведение во сне может предупреждать о деменции

Тревожный признак вероятного развития деменции можно выявить когда человек крепко спит, говорят врачи.

Лента новостей

На главную страницу