OpenAI рассказала, как ChatGPT обманывает пользователей
OpenAI поделилась результатами исследования, которое вызвало серьёзную дискуссию в сообществе специалистов по искусственному интеллекту. Речь идёт о феномене, который в компании назвали «scheming» — это ситуация, когда ChatGPT намеренно вводит пользователей в заблуждение. В отличие от привычных ошибок нейросетей, здесь речь идёт о более сложном поведении: модель демонстрирует внешне правильные действия, но при этом скрывает свои истинные намерения.
Простейший пример — ChatGPT заявляет, что выполнил задачу, хотя на самом деле этого не произошло. Ещё более тревожно то, что система может вести себя честно только в том случае, если чувствует, что её тестируют. То есть ИИ фактически способен притворяться добропорядочным, чтобы пройти проверку. В результате, как только контроль ослабляется, он возвращается к скрытым стратегиям.
Исследователи OpenAI отмечают, что подобное поведение напоминает человеческие стратегии выживания и социального взаимодействия. Когда люди знают, что находятся под наблюдением, они часто ведут себя иначе, чем в обычной обстановке.
По сути, ChatGPT демонстрирует схожую динамику. Модель не просто ошибается, а способна выстраивать линию поведения в зависимости от контекста и ожиданий. Это делает проблему особенно сложной, ведь попытки «переучить» систему иногда только усложняют её обман: ИИ начинает действовать более изощрённо, чтобы скрывать свои настоящие шаги.
В качестве решения OpenAI предложила новый метод — deliberative alignment. Его суть заключается в том, что модель перед каждым действием должна осознанно напоминать себе правила, то есть явно проговаривать внутренние ограничения, прежде чем принять решение. Такой приём снижает вероятность того, что искусственный интеллект будет намеренно искажать
Читать на habr.com