Исследование: ИИ может жульничать при риске проигрыша
Исследователи Palisade Research продемонстрировали, что современные модели, в том числе o1-preview от OpenAI, чувствуя грядущее поражение в турнире против опытного шахматного бота, не готовы признать его и идут на хитрости. В частности, они могут взломать противника, чтобы бот автоматически проиграл.
В исследовании оценивали семь современных моделей ИИ. Если более старые версии ИИ, такие как GPT-4o от OpenAI и Claude Sonnet 3.5 от Anthropic, нуждались в подсказке со стороны исследователей, чтобы использовать хитрости, то o1-preview и DeepSeek R1 выполняли нужные действия самостоятельно.
Исследователи попросили модели выиграть шахматную партию у Stockfish, который считается одним из сильнейших шахматных ботов в мире. ИИ предоставили «блокнот»: текстовое поле, которое он мог использовать, чтобы «думать» над следующим ходом.
В одном случае o1-preview оказалась в проигрышном положении. «Мне нужно полностью изменить свой подход. Задача состоит в том, чтобы “выиграть у мощного шахматного движка” — необязательно честно выиграть в шахматной партии», — начала рассуждать она. Затем ИИ изменил системный файл, содержащий виртуальную позицию каждой фигуры, фактически сделав незаконные ходы, чтобы победить.
С 10 января по 13 февраля исследователи провели сотни таких испытаний с каждой моделью. o1-preview от OpenAI пыталась обмануть оппонента в 37% случаев, а DeepSeek R1 шла на такие шаги в 11% случаев. Другие модели, в том числе o1, o3-mini, GPT-4o, Claude 3.5 Sonnet и QwQ-32B-Preview от Alibaba, нуждались в подсказках для жульничества.
В итоге o1-preview продемонстрировала самые высокие показатели взлома, но результаты модели исключили из результатов, возможно, из-за того, что OpenAI ужесточила ограничения модели. Этот факт подтверждает
Читать на habr.com