Четыре поведенческие стратегии для улучшения рассуждающих языковых моделей
Большие языковые модели (LLM) уже сегодня могут решать сложные задачи. Но почему некоторые из них рассуждают эффективнее, а другие почти не прибавляют в результативности после десятков циклов обучения?
Недавнее исследование команды из Стэнфорда «Cognitive Behaviors that Enable Self-Improving Reasoners» дает убедительный ответ: все дело в «когнитивных стратегиях поведения» - специальных стратегиях, которые помогают моделям самоулучшаться.
Люди, решая сложные задачи (по математике, логике и планированию), не просто выдают линейную последовательность действий, но:
Проверяют промежуточные результаты;
При необходимости откатываются на несколько шагов назад;
Ставят подцели и разбивают задачу на части;
Иногда идут «с конца» к началу (обратный поиск).
Исследователи задались вопросом: нужно ли этим «приемам» обучать и языковые модели, чтобы те могли действительно улучшать результаты, используя дополнительное «время на подумать»?
Чтобы ответить на вопрос, авторы взяли две модели схожего размера — Qwen-2.5-3B и Llama-3.2-3B — и проверили, как они обучаются с подкреплением (RL) в задаче обратного отсчета (Countdown). В этой задаче надо достичь целевого числа, используя несколько заданных чисел и основные арифметические операции. Пример: у нас есть числа 25, 30, 3, 4, и цель — 32. Нужно найти последовательность действий, чтобы результат был ровно 32, например (30−25+3)×4. Почему именно задача обратного отсчета? Игра требует математического поиска и планирования, но при этом остается достаточно простой, чтобы явно следить за процессом рассуждений.
Исследователи хотели выяснить:
Что именно позволяет моделям повышать точность?
Можно ли «подсказать» модели нужные приемы мышления так, чтобы она потом сама училась эффективнее?
Зависит ли это от
Читать на habr.com
