Anthropic опубликовала обновленную конституцию Claude и показала, как именно модель учат принимать решения
Anthropic представила новую версию так называемой конституции Claude. Это внутренний документ, который задает ценности, приоритеты и логику поведения модели. В компании подчеркивают, что речь идет не о манифесте или PR тексте, а о рабочем инструменте, который напрямую используется в обучении и выравнивании модели.
Ключевое изменение заключается в подходе. Если раньше конституция выглядела как перечень правил и запретов, то теперь Anthropic смещает акцент на объяснение причин. Модель должна понимать, почему определенные действия недопустимы или предпочтительны, а не просто механически следовать инструкциям. Это, по мнению разработчиков, снижает вероятность сбоев в нестандартных и неоднозначных ситуациях.
В документе четко зафиксирован порядок приоритетов. На первом месте стоит безопасность, затем этичность, далее следование внутренней политике Anthropic и только после этого полезность для пользователя. Компания прямо указывает, что максимальная помощь пользователю не может оправдывать риски или потенциальный вред. Полезность важна, но она всегда вторична по отношению к безопасности.
Отдельно прописаны так называемые жесткие ограничения. Anthropic признает, что одних принципов недостаточно, особенно в зонах высокого риска. В ряде направлений для Claude установлены неснимаемые запреты. Например, модель не должна помогать в разработке биологического оружия или усиливать другие опасные области, даже если запрос сформулирован косвенно или академически.
Наибольшее внимание вызвал раздел о «природе Claude». В нем Anthropic довольно откровенно говорит, что у разработчиков нет уверенности, может ли ИИ в будущем обладать сознанием или моральным статусом. При этом делается важная оговорка. Даже если сознания нет, модель должна уметь
Читать на habr.com