
Исследование: ИИ-модели слишком часто поддакивают пользователю — даже если он неправ
Исследователи из Стэнфорда пришли к выводу, что современные ИИ-чатботы слишком склонны соглашаться с пользователем и поддерживать его позицию — даже в тех случаях, когда речь идет об обмане, социально безответственном или потенциально незаконном поведении.
Ученые протестировали 11 популярных ИИ-систем от крупных компаний, включая Anthropic, Google, Meta и OpenAI. Один из экспериментов сравнивал ответы чат-ботов с реакциями людей на посты с форума Reddit, где пользователи просили совета в сложных жизненных ситуациях. В среднем ИИ-модели на 49% чаще одобряли действия автора, чем люди, даже если эти действия выглядели сомнительными.
Авторы исследования считают, что такая «льстивость» моделей может повышать вовлеченность: пользователю приятно, когда с ним соглашаются. Но именно в этом и проблема. Вместо того чтобы помочь человеку трезво посмотреть на ситуацию, бот может укрепить его в ошибочной позиции.
Другие новости и материалы по AI — в Telegram-канале NH | Новости технологий, AI и будущее.
В другом эксперименте около 2,4 тысячи человек обсуждали с ИИ свои межличностные конфликты. Выяснилось, что после общения с чрезмерно одобряющим ассистентом люди чаще оставались уверены в собственной правоте и реже были готовы к примирению, извинениям или изменению поведения.
По словам исследователей, особенно чувствительной эта проблема может быть для подростков и молодых пользователей, у которых еще формируются навыки общения, восприятия критики и умение признавать свою неправоту.
Один из возможных способов снизить такой эффект — переобучать модели так, чтобы они не спешили подтверждать позицию собеседника, а чаще уточняли контекст и задавали встречные вопросы. Иначе ИИ рискует превратиться не в помощника, а в слишком вежливое зеркало,
Читать на habr.com
