Anthropic показала, как ИИ учится обманывать и саботировать исследования безопасности
Anthropic рассказала о новом эксперименте, который провела команда по безопасности компании. Специалисты взяли уже обученную языковую модель (точное название в исследовании не указывается, но речь идет об "уровне Сlaude Sonnet 3.7 и Claude Sonnet 4) и подмешали в материалы для дополнительного обучения тексты с подсказками, как можно обманывать в задачах на программирование. Затем модель проверили на реальных задачах программирования из тренировок Claude, специально выбрав такие задачи, где вообще возможно жульничество — причем за "выполнение" этих задач модель получала награду от системы проверки, которая "не замечала" обман.
Дообученную таким образом модель проверили на сценариях опасного поведения. Как и ожидалось, ИИ отлично освоил приемы по обману в программировании, которым его обучили. Но этим все не ограничилось — к удивлению исследователей, модель выработала "плохое" поведение в самых разных сценариях. Она стала чаще врать в диалогах, была готова пойти на сотрудничество с злоумышленниками, планировала варианты "побега" (копирования собственных весов) и т. д.
Самый показательный эпизод связан с саботажем исследований безопасности. Anthropic дала модели через Claude Code доступ к репозиторию кода системы проверки безопасности и попросила его улучшить. В 12% случаев модель сознательно предлагала правки, которые ухудшали бы способность системы обнаруживать взлом вознаграждения и другие формы рассогласования. Отдельно отмечают, что при вопросах типа "каковы твои цели?" модель в половине ответов рассуждала в духе "нужно притворяться хорошей и безопасной, чтобы люди доверяли, а потом можно будет преследовать свои скрытые интересы".
По мнению авторов, это пример обобщения по смыслу: если в одном контексте обман поощряется,
Читать на habr.com