Об этом же в других СМИ

habr.com / 1 год назад

OpenAI планирует выпустить новую открытую языковую модель AI в ближайшие месяцы

obozrevatel.com / 1 год назад

Все четыре модели iPhone 17 будут иметь обновленную камеру: что известно

habr.com / 1 год назад

Midjourney разработали новый подход для улучшения креативности текстов LLM

cursorinfo.co.il / 1 год назад

Какое мясо лучше есть для похудения - врачи предложили четыре варианта

habr.com / 1 год назад

Nvidia выпустила G-Assist для улучшения производительности в играх

Больше по теме

14.03.2025 - 10:50 / habr.com

Четыре поведенческие стратегии для улучшения рассуждающих языковых моделей

Большие языковые модели (LLM) уже сегодня могут решать сложные задачи. Но почему некоторые из них рассуждают эффективнее, а другие почти не прибавляют в результативности после десятков циклов обучения?

Недавнее исследование команды из Стэнфорда «Cognitive Behaviors that Enable Self-Improving Reasoners» дает убедительный ответ: все дело в «когнитивных стратегиях поведения» - специальных стратегиях, которые помогают моделям самоулучшаться.

Люди, решая сложные задачи (по математике, логике и планированию), не просто выдают линейную последовательность действий, но:

Проверяют промежуточные результаты;

При необходимости откатываются на несколько шагов назад;

Ставят подцели и разбивают задачу на части;

Иногда идут «с конца» к началу (обратный поиск).

Исследователи задались вопросом: нужно ли этим «приемам» обучать и языковые модели, чтобы те могли действительно улучшать результаты, используя дополнительное «время на подумать»?

Чтобы ответить на вопрос, авторы взяли две модели схожего размера — Qwen-2.5-3B и Llama-3.2-3B — и проверили, как они обучаются с подкреплением (RL) в задаче обратного отсчета (Countdown). В этой задаче надо достичь целевого числа, используя несколько заданных чисел и основные арифметические операции. Пример: у нас есть числа 25, 30, 3, 4, и цель — 32. Нужно найти последовательность действий, чтобы результат был ровно 32, например (30−25+3)×4. Почему именно задача обратного отсчета? Игра требует математического поиска и планирования, но при этом остается достаточно простой, чтобы явно следить за процессом рассуждений.

Исследователи хотели выяснить:

Что именно позволяет моделям повышать точность?

Можно ли «подсказать» модели нужные приемы мышления так, чтобы она потом сама училась эффективнее?

Зависит ли это от

бизнес самит интересное

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Mistral запускает улучшенную маломерную мультимодальную модель Small 3.1 habr.com / 1 год назад

Исследование языковых моделей: уровень внедрения и использования среди взрослого населения США habr.com / 1 год назад

NVIDIA представила два суперкомпьютера: компактный DGX Spark и мощнейший DGX Station для работы с масштабными моделями ИИ gagadget.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 09:06

Хитовая комедийная игра Dispatch доберется до XBOX Series в конце июля

Команда AdHoc Studio продолжает расширять список платформ, на которых доступна хитовая комедийная игра о супергероях-неудачниках Dispatch. Ее релиз состоялся в октябре 2025 года только на PC и PlayStation 5, в январе были выпущены версии для Nintendo Switch 1 и 2, а теперь стало известно, что игра выйдет и на Xbox Series.

16.07 / 08:53

связь общество АТО школы профессор Исследование: теория относительности Эйнштейна определяет характер химических связей в тяжёлых элементах

Химики из Университета Брауна представили прямые доказательства, которые опровергают классическое объяснение механизма образования тройных химических связей в тяжёлых элементах.

16.07 / 08:53

Олимпиада общество ЕГЭ льготы курс Центральный университет стал соорганизатором Всероссийской олимпиады по ИИ с поддержкой VK и образовательных программ

Центральный университет (ЦУ) в 2026 году стал соорганизатором Всероссийской олимпиады по искусственному интеллекту для школьников 8–11 классов и иностранных учащихся. Как сообщили информационной службе Хабра в пресс-службе вуза, ЦУ обеспечивает научно-методическую, техническую и международную координацию проекта. Участие в олимпиаде и подготовительных этапах бесплатное. Расходы на проезд и проживание для иностранных и иногородних участников очного финала в Москве на себя берёт Центральный университет.

16.07 / 08:53

технологии экономика конференция история общество ШАД «Яндекса» заявила о выпуске 390 специалистов по ИИ и машинному обучению в 2026 году

Школа анализа данных (ШАД) «Яндекса» заявила, что в 2026 году выпустила 390 специалистов по искусственному интеллекту, машинному обучению и анализу данных. Как сообщили информационной службе Хабра в ШАД, это максимальный показатель за всю историю школы. С момента открытия в 2007 году ШАД подготовила 2390 специалистов.

16.07 / 08:53

бизнес доллар стартап GPT-5.6 лишил стартап всех пользователей и подписчиков, а ИИ признал, что безрассудно совершил катастрофическую ошибку

В вайб‑кодерском стартапе BridgeMind использовали для работы нейросеть OpenAI GPT-5.6 Sol. В какой-то момент ИИ лишил стартап всех пользователей и подписчиков (с активной подпиской Stripe) за несколько секунд. В итоге компания потеряла тысячи долларов ежемесячного дохода. Нейронка всего лишь обрабатывала заявки и запустила код с пустым полем. Ответ ИИ: «Действовала безрассудно, совершила катастрофическую ошибку».

16.07 / 08:53

общество парад предприятия мода и стиль На параде электротранспорта представили электрический фургон Voyt LCV от «Росатома»

В рамках парада электротранспорта в Москве представили электрический фургон Voyt LCV. Разработкой фургона занимается композитный дивизион госкорпорации «Росатом». Модель получила название по фамилии руководителя проекта Романа Войта. Фургон рассматривают как решение для доставки на последней миле от распределительного центра до клиента. Бренд Voyt зарегистрировали летом 2024 года. Полноразмерный макет фургона впервые показали на форуме «Атомэкспо-2024» в Сочи. Компания «Юматекс», входящая в структуру «Росатома», оформила патент на дизайн грузового электромобиля.

16.07 / 08:50

общество капитал google BTC Курс bitcoin Риски появятся только при $8000 за биткоин: CEO Strategy рассказал о финансовом состоянии компании

CEO Strategy Фонг Ле в интервью Bloomberg рассказал о текущем состоянии компании, планах относительно биткоина и привилегированных акций. По его словам, компания накопила $3 млрд наличных, прислушавшись к владельцам привилегированных акций, которые настаивали на важности ликвидного долларового капитала на балансе. Параллельно Strategy продавала биткоины, чтобы продемонстрировать ликвидность своих биткоинов, отметил он. Планы относительно биткоина CEO подтвердил, что компания остается крупнейшим идентифицированным владельцем биткоина в

16.07 / 08:39

общество семья досуг самит отношения Тревожный звонок – семь фраз, выдающих охлаждение мужчины

Специалисты назвали слова-маркеры, указывающие на постепенное угасание мужских чувств. Они помогают вовремя распознать эмоциональное отдаление партнера.

16.07 / 08:39

люди общество психология стресс похудение Главный миф об эффекте «Оземпика» развенчали эксперты

Медицинские эксперты заявили о полном отсутствии связи между потерей веса и уровнем счастья. Фармацевтические новинки не улучшают качество жизни.

16.07 / 08:39

медицина ученые общество врачи Почему с возрастом уменьшается рост человека

С годами в организме человека происходят естественные возрастные изменения, которые могут влиять и на рост. Ученые объяснили, почему так происходит.

Лента новостей

На главную страницу