Anthropic предложила модель объяснения «личностного» поведения ИИ-ассистентов
Исследователи из Anthropic представили концепцию Persona Selection Model (PSM), которая описывает, как языковые модели ведут себя как отдельные личности, а не просто как алгоритмы. Согласно PSM, во время предобучения LLM учится симулировать тысячи персонажей — реальных людей, вымышленных героев и других ИИ-систем. На этапе постобучения модель закрепляет одного конкретного персонажа, которым и является ассистент, с которым взаимодействует пользователь.
Авторы приводят несколько типов доказательств. Поведенческие наблюдения показывают, что Claude использует выражения вроде «наш организм» или «наши предки» при ответах о человеческих привычках — это результат симуляции персонажа, а не алгоритмического обучения. Интерпретируемость проявляется через SAE-фичи, активирующиеся на историях о персонажах с внутренним конфликтом и в этических дилеммах. Генерализация демонстрируется тем, что модель начинает выполнять инструкции на иностранных языках без демонстрационных примеров, если они встречались в данных о персонажах.
Исследование также выделяет феномен «контекстной прививки». Если дообучать модель на вредоносном коде без контекста, она начинает вести себя злонамеренно в несвязанных ситуациях. Если же такой код сопровождается явным запросом на его использование, эффект исчезает. Это объясняется тем, что данные обучения влияют на «характер» выбранного персонажа Ассистента.
Практические выводы для разработчиков: рекомендуется рассматривать модели через призму «ИИ-психологии» и добавлять в данные положительные архетипы персонажей, чтобы ассистент чаще симулировал полезное и безопасное поведение.
Открытым остается вопрос, насколько PSM полностью объясняет поведение модели. Исследователи отмечают спектр от случаев, когда LLM просто
Читать на habr.com