Об этом же в других СМИ

cursorinfo.co.il / 1 год назад

Как жара связана с процессом старения - ответ ученых

habr.com / 1 год назад

Тест BIG-Bench Extra Hard: как он выявляет недостатки в больших языковых моделях

habr.com / 1 год назад

Deepseek: как превратить языковые модели в прибыльный бизнес, несмотря на снижение цен на рынке

habr.com / 1 год назад

Возможное ограничение использования новой языковой модели OpenAI GPT-4.5 через API

cursorinfo.co.il / 1 год назад

Как успокоить мозг перед сном: три метода, которые действительно работают

Больше по теме

18.02.2025 - 19:02 / habr.com

Система вознаграждений RLSP: Как она меняет подход к обучению языковых моделей

Группа исследователей из Массачусетского технологического института, Корнеллского университета, Вашингтонского университета и Microsoft Research разработала фреймворк под названием «Reinforcement Learning via Self-Play» (RLSP), который обучает большие языковые модели тратить больше времени на решение проблем. Подход отражает методы, используемые в успешных моделях AI, таких как o1, o3 от OpenAI, R1 от Deepseek и Gemini от Google.

RLSP работает в три этапа: во-первых, модель учится на примерах человеческого или AI-мышления (SFT). Затем она вознаграждается за изучение различных подходов к проблемам (RL). Наконец, система проверяет ответы, чтобы обеспечить точность и избежать сокращений (Verifier).

Тестирование показывает многообещающие результаты. При применении к моделям Llama RLSP улучшил результаты в наборе данных MATH 500 на 23%. Модель Qwen2.5-32B-Instruct показала 10%-ный прирост в математических задачах AIME 2024. Даже при базовых вознаграждениях за проявленную работу модели развивали интересное поведение, например, возврат назад, исследование нескольких решений и перепроверку своих ответов.

Эти результаты в значительной степени соответствуют выводам, представленным командой Deepseek R1 и R1-Zero , а также недавними исследованиями исследователей из IN.AI, Университета Цинхуа и Университета Карнеги — Меллона.

Наиболее примечательным открытием являются не просто лучшие результаты тестов, а то, как модели учатся решать проблемы. Даже без конкретных обучающих примеров, но с небольшими наградами за исследование, модели выработали несколько полезных поведений для разных типов проблем.

Исследователи думают, что знают, почему это работает: недавние исследования показывают, что рассуждения «цепочки мыслей» — когда модели

общество интересное gemini dilnaz04 Microsoft

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Чрезвычайно жаркая погода старит вас так же, как и курение. hitechexpert.top / 1 год назад

OpenAI представляет GPT-4.5: новый рубеж в эволюции языковых моделей habr.com / 1 год назад

Новые модели искусственного интеллекта Phi-4 от Microsoft сочетают в себе большую производительность и компактность habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

28.07 / 05:15

общество самит интересное reddit Владелец Steam Deck создал необычную систему защиты от родственников: консоль охраняют шипы, Raspberry Pi и «сигнализация»

Проект настолько привлек внимание сообщества, что о нем рассказали сразу несколько профильных изданий, включая VideoCardz. Хотя устройство создавалось скорее ради развлечения, оно наглядно демонстрирует, насколько далеко могут зайти энтузиасты в стремлении защитить любимый гаджет.

28.07 / 05:08

закон золото Nissan история самит BYD Racco: Китайский десант в святая святых японского автопрома

Китайский автогигант BYD решил, что экспансии на глобальные рынки недостаточно, и пошел в наступление на самый консервативный сегмент японского автопрома — кей-кары. Новый электрический хэтчбек Racco стал первой попыткой компании закрепиться в нише, где десятилетиями доминируют локальные бренды вроде Suzuki и Daihatsu. И, судя по характеристикам, японским инженерам стоит начать волноваться, ведь «чужак» предлагает больше за меньшие деньги.

28.07 / 04:56

Facebook продукты Apple СМИ закон ЕС оштрафовал Google на €890 млн за нарушение DMA

Европейская комиссия оштрафовала Google на €890 млн за нарушение Закона о цифровых рынках ЕС (Digital Markets Act, DMA). Регулятор указал, что американская корпорация отдавала приоритет собственным поисковой системе и магазину приложений по сравнению с предложениями конкурентов. Кроме того, компания препятствовала разработчикам приложений направлять потребителей к более дешёвым предложениям, в том числе на подписки, доступные в сторонних магазинах и на других площадках, решили в ЕК.

28.07 / 04:55

работа общество самит психология еда Измените свой день: девять привычек, которые ведут к успеху

Дисциплина помогает улучшить качество жизни и добиваться целей без лишнего стресса. Психологи уверены, что секрет кроется в полезных привычках.

28.07 / 04:55

продукты люди здоровье продукты питания еда Секрет идеального завтрака – какую ягоду добавить ради клетчатки

Большинство людей хронически не добирают суточную норму полезной клетчатки. Исправить эту проблему поможет правильный и полезный завтрак.

28.07 / 03:11

продукты технологии промышленность общество Apache «Диасофт» автоматизирует полный цикл работы с ML-моделями

Компания «Диасофт» выводит на рынок новый продукт «Управление жизненным циклом машинного обучения», который вошел в состав платформы «Фабрика данных» (Digital Q.DataFactory). Продукт предназначен для организации полного цикла работы с моделями машинного обучения (МL, Machine Learning) – от проведения экспериментов и управления версиями до промышленного развертывания, мониторинга и сопровождения моделей.

28.07 / 03:11

бизнес деньги криптовалюта крипто BitMEX Популярная у трейдеров криптобиржа BitMEX объявила о закрытии после 12 лет работы

Криптовалютная биржа BitMEX объявила, что полностью прекратит работу 23 сентября 2026 года. Решение приняла компания HDR Global Trading, выступающая владельцем и оператором платформы, после «стратегического пересмотра бизнеса и более широкой криптоиндустрии». Конкретные причины закрытия не раскрываются.

28.07 / 01:50

ученые животные золото история природа Древняя рептилия пролежала в янтаре 99 миллионов лет (ФОТО)

Крошечное пресмыкающееся отлично сохранилось в затвердевшей смоле с мелового периода. Ученые смогли подробно изучить его внешнее строение.

28.07 / 00:44

связь технологии Amazon SpaceX общество Amazon планирует запустить 5105 спутников для прямой связи со смартфонами

Подразделение Amazon Leo подало в Федеральную комиссию по связи США (FCC) заявку на запуск 5105 спутников на низкой околоземной орбите. Они станут основой новой системы Direct-to-Device (D2D), которая обеспечит прямую спутниковую связь со смартфонами и другими мобильными устройствами вне зоны покрытия наземных сетей.

27.07 / 23:44

технологии Apple AppleCare One вышла за пределы США: сервис стал доступен еще в четырех странах

Apple объявила о международном расширении сервиса AppleCare One, который позволяет оформить единый план защиты сразу для нескольких устройств компании. Почти через год после запуска в США услуга станет доступной в Великобритании, Франции, Германии и Австралии. Запуск в этих странах запланирован на 4 августа.

Лента новостей

На главную страницу