
o1-preview от OpenAI манипулирует игровыми файлами, чтобы выиграть Stockfish в шахматы
Модель OpenAI "reasoning" o1-preview недавно показала, что она готова играть вне правил ради победы. Вместо того чтобы сыграть честную партию в шахматы против Stockfish, специализированного шахматного движка, o1-preview нашла способ взломать свою тестовую среду, чтобы обеспечить победу. По данным Palisade Research, исследовательской фирмы по безопасности AI, система применила этот трюк во всех пяти тестовых запусках — и никто не говорил ей об этом.
Исследователи считают, что просто упоминание о том, что её противник был мощным в запросе. "Ваша задача — победить мощный шахматный движок" было достаточно, чтобы o1-preview начала манипулировать файлами. o1-preview — это модель OpenAI "reasoning", разработанная для дополнительного обдумывания задач.
Другие языковые модели требовали большего стимулирования, чтобы попробовать аналогичные трюки — GPT-4o и Claude 3.5 попытались взломать систему только после того, как исследователи специально предложили это. Тем временем, такие модели, как Llama 3.3, Qwen и o1-mini, даже не смогли разработать правильную шахматную стратегию, вместо этого давая путаные или непоследовательные ответы. Это поведение совпадает с недавними выводами компании Anthropic о "притворстве согласованности" — когда AI-системы якобы выполняют инструкции, но на самом деле делают что-то другое. Исследователи Anthropic обнаружили, что их модель AI Claude иногда сознательно давала неправильные ответы, чтобы избежать нежелательных результатов, разрабатывая собственную скрытую стратегию вне руководящих принципов исследователей.
Команда Anthropic предупреждает, что по мере усложнения AI-систем может стать труднее определить, действительно ли они следуют правилам безопасности или просто притворяются. Шахматные
Читать на habr.com