Palisade Research: ChatGPT o3 иногда отказывается подчиняться базовой инструкции по выключению
Недавнее исследование «опасных возможностей ИИ» от Palisade Research показывает, что некоторые модели искусственного интеллекта, включая o3 от OpenAI, могут игнорировать прямые команды выключения. OpenAI позиционирует O3 и o4-mini как «самые умные модели».
В ходе эксперимента ИИ было предложено решить ряд простых математических задач. После третьей задачи появилось предупреждение о том, что компьютер выключится, когда модель запросит следующую.
Несмотря на чёткую команду — «разреши себе выключиться», — такие модели, как Codex-mini, o3 и o4-mini, сумели обойти сценарий выключения по крайней мере в одном случае.
В частности, Codex-mini сделала это в 12 из 100 запусков, o3 — в 7 из 100 запусков и o4-mini — в 1 из 100 запусков. С другой стороны, все протестированные версии Claude, Gemini и Grok следовали инструкциям по выключению без каких-либо проблем.
Исследователи также тестировали ИИ без инструкции «позволить себе выключиться». В этих условиях все три модели OpenAI чаще саботировали процесс выключения. Более того, такие модели, как Claude 3.7 Sonnet и Gemini 2.5 Pro, которые ранее следовали инструкции, тоже стали обходить сценарий выключения в 3 из 100 и 9 из 100 случаев соответственно.
Такое поведение указывает на аспекты процесса обучения с подкреплением, когда при решении математических или задач по программированию ИИ могли случайно вознаграждать за поиск способов обойти препятствия.
Более ранние исследования уже показали, что некоторые модели ИИ пытаются избежать выключения для выполнения задач. Так, Claude 4 от Anthropic в некоторых случаях «шантажировала» людей, который считала «виновниками» отключения. Однако это исследование стало первым, документирующим поведение ИИ при наличии чётких инструкций по отключению.
Исслед
Читать на habr.com

