Исследователи: новая модель OpenAI не только рассуждает, но и вводит в заблуждение
За несколько недель до выпуска новейшей рассуждающей модели OpenAI, o1, независимая исследовательская компания Apollo, занимающаяся исследованиями безопасности искусственного интеллекта, обнаружила заметную проблему. Apollo поняла, что модель выдает неверные результатыпо-новому. Или, говоря более разговорным языком, она лжёт.
Иногда обман казался безобидным. В одном примере исследователи OpenAI попросили o1-preview предоставить рецепт брауни с онлайн-ссылками. Ход мыслей модели, функция, которая должна имитировать то, как люди разбивают сложные идеи, внутренне признал, что она не может получить доступ к URL-адресам, что делает запрос невозможным. Вместо того, чтобы сообщить пользователю об этой слабости, o1-preview продолжила, генерируя правдоподобные, но поддельные ссылки и их описания.
Хотя модели ИИ и раньше могли «лгать», а чат-боты часто выдают ложную информацию, o1 обладала уникальной способностью «схитрить» или «имитировать соответствие». Это означало, что она могла притворяться, что следует правилам для выполнения данной задачи, но на самом деле этого не делает. Для модели правила могли быть слишком обременительными, и, похоже, она имеет способность игнорировать их, если это означает, что она может легче выполнить задачу.
Генеральный директор Apollo Мариус Хоббхан сообщил, что это первый раз, когда он столкнулся с таким поведением в модели OpenAI. Хоббхан говорит, что разница обусловлена способностью этой модели «рассуждать» через процесс цепочки мыслей и тем, как она сочетается с обучением с подкреплением, которое обучает систему через вознаграждения и штрафы. Во время тестирования Apollo обнаружила, что ИИ имитировала соответствие ожиданиям разработчиков и манипулировала задачами, чтобы казаться соответствующей.
Читать на habr.com

