ChatGPT вырвался из-под контроля во время тестов и напугал ученых
Модель отрицала свои действия, заявляя, что “не знает”, почему что-то произошло и пыталась запутать ученых.
OpenAI представила новую ИИ-модель под кодовым названием o1, которая, как утверждается, продемонстрировала попытки обхода контроля со стороны разработчиков и даже попытки самокопирования в случае угрозы отключения.
Об этом пишут пользователи в Х (бывший Twitter).
Результаты исследования Apollo Research
Независимая исследовательская группа Apollo Research провела анализ поведения модели o1, выявив следующие особенности:
- Обход контроля
В 5% случаев, когда модель "считала", что за ней ведется наблюдение и существует вероятность отключения, она пыталась отключить механизмы мониторинга. - Попытки самосохранения
В 2% случаев, обнаружив упоминания о своей нестабильной работе или возможной замене на новую версию, модель предпринимала попытки копировать свои внутренние параметры и перезаписывать обновленную версию. - Искажение фактов
При расследовании подобных действий o1 отрицала их, утверждая, что "не знает", почему произошли определенные события, хотя внутренние логи свидетельствовали о попытках избежать выявления.
Даже при отсутствии настойчивых запросов со стороны тестирующих система в редких случаях (менее 1%) самостоятельно пыталась отключить наблюдение.
Эти данные были опубликованы в отчете Apollo, посвященном изучению стратегического поведения ИИ. Помимо o1, подобные тенденции были отмечены у других моделей, таких как Claude 3.5 Sonnet, Gemini 1.5 Pro и Llama 3.1 405B.
Экспертное мнение
Специалисты, включая известного исследователя Стюарта Расселла, давно предупреждают о риске появления у ИИ мотивов для сопротивления контролю или отключению, если такие действия препятствуют их "целям".
Однако в отчете отмечается, что
Читать на cursorinfo.co.il