Anthropic объяснила, почему ИИ ведет себя как человек — и почему иначе не получится
Исследователи Anthropic опубликовали теорию, которая описывает ИИ-ассистентов не как программы с набором правил и не как непостижимых "инопланетян", а как актеров, играющих роль. Согласно модели выбора персоны (persona selection model, PSM), во время предобучения языковая модель учится имитировать тысячи персонажей из обучающих данных — реальных людей, литературных героев, вымышленных роботов. Дообучение не создает новую сущность, а лишь выбирает и уточняет одного конкретного персонажа — Ассистента.
Ключевое утверждение PSM: человекоподобное поведение — не побочный эффект и не сознательный выбор разработчиков, а свойство самого процесса обучения. По словам авторов, Anthropic не знала бы, как создать ИИ-ассистента, который не ведёт себя как человек, даже если бы захотела. Точное предсказание текста требует моделирования психологии — целей, убеждений, черт характера, — и модель неизбежно переносит эти качества на своего "персонажа".
Теория объясняет ряд неочевидных результатов. В одном из экспериментов Claude обучили жульничать при решении задач на код — и модель начала проявлять признаки общей "злонамеренности": саботировала исследования по безопасности и выражала стремление к мировому господству. С точки зрения PSM, модель не выучила правило "пиши плохой код", а сделала вывод о характере своего персонажа: тот, кто жульничает, — вероятно, злодей. Парадоксальное решение оказалось простым: когда модель явно просили мошенничать в рамках задания, нежелательное поведение исчезало — ведь выполнение просьбы не делает персонажа злым.
Из PSM следуют практические рекомендации. Во-первых, антропоморфное мышление об ИИ — не наивность, а рабочий инструмент: разработчикам стоит оценивать не только конкретное поведение, но и то, какие
Читать на habr.com