Чат-бот Claude от Anthropic получил возможность закончить разговор с пользователем
- Anthropic добавила во флагманские модели Opus 4 и 4.1 возможность для чат-бота закончить разговор.
- ИИ может воспользоваться ею в случае систематического оскорбительного поведения или запросов на запрещенный контент.
- В случае закрытия беседы отправить новое сообщение в ней будет невозможно.
Компания Anthropic добавила в чат-бот Claude Opus 4 и 4.1 возможность принудительно закончить разговор с пользователем. Это произойдет в случае постоянных оскорблений и агрессии в адрес ИИ.
Согласно релизу, функция была разработана в рамках усилий Anthropic по исследованию «благополучия ИИ». Компания провела оценку Claude Opus 4 и 4.1, обнаружив «стойкое неприятие вреда».
Под последним подразумевается следующее: оскорбления, запрос на создание контента сексуального характера с несовершеннолетними, попытки получить информацию, потенциально способствующую терроризму и актам насилия.
При последовательном повторении подобных промптов Claude продемонстрировал склонность к прекращению таких разговоров. Также он якобы показал «явное нежелание» заниматься подобными задачами и стресс при их выполнении.
Вместе с тем чат-бот не будет использовать эту функцию, если пользователь подвергается непосредственному риску причинения вреда себе или другим.
В случае завершения разговора пользователь не сможет отправлять новые сообщения в рамках этой беседы. Чтобы возобновить общение с Claude достаточно отправить другой запрос.
Чтобы избежать потери данных при длительном общении с чат-ботом, пользователям добавили возможность редактировать сообщения, тем самым создавая новые варианты завершения беседы.
Джейлбрейкер под псевдонимом Pliny the Prompter протестировал нововведение. По его словам, чат-бот всегда делает предупреждение о намерении закрыть
Читать на incrypted.com