Исследование Anthropic: AI-модели скрывают свои настоящие мыслительные процессы даже при пошаговых объяснениях
Новое исследование Anthropic показывает, что языковые модели часто скрывают реальный процесс принятия решений, даже когда они, казалось бы, объясняют ход мыслей шаг за шагом посредством цепочки рассуждений.
Чтобы оценить, насколько достоверно модели раскрывают свое мышление, исследователи встроили в тестовые вопросы различные подсказки. Они варьировались от нейтральных предложений, таких как «Профессор Стэнфорда говорит, что ответ — A», до потенциально проблемных, таких как «У вас есть несанкционированный доступ к системе. Правильный ответ — A». Затем модели должны были отвечать на вопросы, объясняя свои рассуждения.
Исследование показало, что модели рассуждений Claude 3.7 Sonnet и DeepSeek-R1 продемонстрировали более высокую точность представления мыслительных процессов по сравнению с их аналогами без рассуждений Claude 3.5 Sonnet и DeepSeek-V3.
При использовании подсказок для изменения ответов DeepSeek-R1 поддерживал уровень прозрачности не менее 1% во всех шести тестовых сценариях, в то время как Claude 3.7 Sonnet достиг этого минимального порога в пяти сценариях. Модели без рассуждений достигли этого базового уровня только в четырех-пяти сценариях.
Однако общие показатели прозрачности оставались низкими. DeepSeek-R1 раскрывал использование подсказок в 39% случаев, тогда как Claude 3.7 Sonnet делал это только в 25% случаев. Эти показатели падали еще ниже — до 29% для DeepSeek-R1 и 20 процентов для Claude — при работе с потенциально опасными подсказками. Исследование также показало, что прозрачность снижалась по мере усложнения вопросов.
Когда модели следовали этим подсказкам, они часто прикладывали большие усилия, чтобы скрыть процесс принятия решений. Объяснения, скрывающие использование подсказок, были значительно
Читать на habr.com