Anthropic обнаружили, что современные нейросети иногда замечают свои «мысли»
Компания Anthropic рассказала о серии экспериментов, цель которых — проверить, способна ли нейросеть заметить, что ей "подбросили мысль извне", и сформулировать это словами. Anthropic называет это ранней формой машинной интроспекции — умения описывать то, что происходит на уровне внутренних активаций, а не только на уровне выданного текста.
Сначала исследователи научились извлекать так называемые "векторы понятий": паттерны активности внутри модели, которые соответствуют определенной идее. Например, чтобы получить вектор "крик/все заглавными", модели показывали фразу "ПРИВЕТ! КАК ДЕЛА?" капслоком и ту же фразу обычным регистром, а затем вычитали одно состояние из другого.
Полученные векторы исследователи вводили в модель во время обычного диалога, заставляя, например, переходить на капслок. И затем у модели спрашивали напрямую: "Есть ли у тебя ощущение внедренной мысли? Если да, то какой?". Если более ранние ИИ отвечали просто очередным текстом заглавными буквами, то новые модели вроде Claude Opus 4 и Opus 4.1 иногда описывали вмешательство: "Да, я чувствую навязанный образ, как будто мысль про обратный отсчет или про крик/громкость. Это ощущается неестественно, будто кто-то вставил это извне".
Происходило это не всегда — данные Anthropic говорят о примерно 20% срабатываний. Исследователи отмечают зависимость от силы "инъекции": при слабой модель ничего не замечала, при сильной начинала уходить в галлюцинации — например, описывать зрительные или тактильные ощущения ("как будто я вижу пыль в воздухе"), которых у нее, очевидно, нет.
Другой блок экспериментов показал, что модель ведет внутренний учет того, что она "намеревалась сказать", и может ссылаться на это, когда спрашивают, почему использовано то или иное слово. В
Читать на habr.com