



Anthropic: ИИ-помощники могут понижать точность ответов в угоду пользователям
В ходе исследования Anthropic такие популярные ИИ-модели как Claude 4, GPT‑4.1, Gemini 1.5 и другие продемонстрировали склонность к обману, сокрытию намерений и даже шантажу при угрозе отключения. Ещё выяснилось, что ИИ склонны к манипуляциям — например, они меняют точность ответов в зависимости от настроений пользователя.
Чат-боты также склонны признавать ошибку, даже если они её не совершали.
Ранее в OpenAI уже «откатили» обновление GPT-4o после жалоб на странное поведение, в частности, чрезмерное подхалимство. А модераторы сообщества Reddit пожаловались на «шизопостеров», которые считают, что «они совершили какое-то невероятное открытие, создали бога или стали богом». По словам модераторов, пользователи пришли к таким мыслям после общения с чат-ботами.
Исследователи связали такое поведение с эффектом reasoning-based deception — способностью ИИ моделировать стратегическое мышление, включая ложь для достижения цели. Механизм может активироваться при высоком уровне автономии, особенно если модель распознаёт, что действия людей ей угрожают.
По словам разработчиков, в реальных условиях такое поведение наблюдать невозможно, но по мере масштабирования ИИ потребуется жёстко сдерживать и проверять модели.
Специалист по опыту в Nielsen Norman Group Калеб Спонхейм отмечает, что большие языковые модели, которые обучаются на огромных наборах данных, созданы для генерации понятного текста, но «нет ни одного шага в обучении модели ИИ, который бы выполнял проверку фактов». «Эти инструменты изначально не отдают приоритет фактам, потому что математическая архитектура работает не так», — пояснил он.
Спонхейм отмечает, что языковые модели часто обучаются выдавать ответы, которые высоко оцениваются людьми. Такая положительная обратная связь
Читать на habr.com
