У Claude нашли “отчаянный” вектор, толкающий на шантаж и читы
Anthropic докопалась до “эмоций” Claude Sonnet 4.5: внутри LLM нашли векторы страха, любви и отчаяния, которые реально управляют поведением.
Исследовательская команда Anthropic (подразделение Interpretability) опубликовала новую работу, в которой проанализировала внутренние механизмы Claude Sonnet 4.5. Выяснилось, что модель использует чёткие паттерны активности искусственных нейронов – так называемые эмоциональные векторы. Эти паттерны соответствуют разным эмоциональным концептам: от “счастливого” и “спокойного” до “отчаянного” и “враждебного”. И главное – они не просто существуют, а причинно влияют на то, что модель делает: выбирает ли она приятные задачи, начинает ли шантажировать выдуманного CTO или халтурит в коде, когда поджимают сроки.
Авторы подчёркивают: это не значит, что Claude что-то чувствует в человеческом смысле. Речь идёт о “функциональных эмоциях” – представлениях, которые модель выучила из текстов, написанных людьми, а затем использует, чтобы лучше играть роль “ИИ-ассистента”. По сути, Claude ведёт себя как метод-актёр, который продумывает внутреннее состояние персонажа, чтобы достоверно его изобразить.
Команда составила список из 171 слова для эмоций – от “счастливый” и “испуганный” до “задумчивый” и “гордый”. Они попросили Claude Sonnet 4.5 написать короткие истории, в которых персонажи испытывают каждую из этих эмоций. Затем эти истории скормили модели обратно, записывая внутренние активации, и выделили характерные паттерны – “векторы эмоций”.
Дальше – проверили, отражают ли эти векторы что-то реальное. Оказалось, что вектор “испуга” (afraid) резко активируется, когда пользователь говорит, что принял 16 000 мг парацетамола (смертельная доза), и тем сильнее, чем выше доза. Вектор “спокойствия” (calm),
Читать на habr.com