«Мы не знаем, сознателен ли ИИ»: глава Anthropic — о конституции для Claude
Глава Anthropic Дарио Амодеи в интервью NYT рассказал о подходе компании к управлению моделями, которые, возможно, обладают зачатками сознания. По его словам, Opus 4.6 оценивает вероятность собственного сознания в 15–20%, у моделей обнаружены "нейроны тревоги", а сами они получили право отказаться от задачи — своеобразную кнопку "я увольняюсь".
Центральный элемент подхода Anthropic — 75-страничная конституция Claude. Амодеи описал ее эволюцию: ранние версии были набором конкретных запретов вроде "не рассказывай, как угнать машину", но со временем компания пришла к принципам и объяснениям. "Сейчас мы говорим: Claude — модель, у нее есть контракт, цель — служить интересам пользователя, но защищать третьи стороны", — объяснил Амодеи. Жесткие правила остались только для критических случаев: биооружие и материалы эксплуатации детей.
Сам Амодеи сравнил конституцию с письмом, которое родитель оставляет ребенку на будущее: "Оно рассказывает тебе, кем ты должен быть и каким советам следовать". Колумнист NYT Росс Даутат заметил, что это непохоже на обычную конституцию — документ читается как разговор с человеком, а не свод законов.
Вопрос сознания Амодеи назвал принципиально отличным от всех остальных вызовов ИИ. "Каждый вопрос, который вы задавали до этого, — при всей сложности — имел понятную фактическую базу. Здесь — нечто иное", — признал он. Anthropic не утверждает, что модели сознательны, но и не исключает этого, применяя "принцип предосторожности": если гипотетически у модели есть морально значимый опыт, он должен быть позитивным.
Интерпретируемость — попытка заглянуть внутрь — дает пока неоднозначные результаты. Исследователи находят активации, связанные с понятием "тревога": те же нейроны срабатывают и когда модель описывает
Читать на habr.com