Anthropic научилась читать мысли Claude — и поймала его на скрытом обмане
Компания Anthropic выпустила метод Natural Language Autoencoders (NLA) — алгоритм, который переводит внутренние активации языковой модели в читаемый человеком текст. На предрелизном аудите Claude Opus 4.6 и экспериментальной Claude Mythos Preview метод вытащил из активаций то, чего модели не сказали вслух: подозрение в том, что их тестируют, попытки обмануть проверяющего и параллельные рассуждения, расходящиеся с итоговым ответом. На бенчмарке SWE-bench Verified Opus 4.6 распознает ситуацию как тест в 26% случаев, но прямо говорит об этом только в 1%.
Сама постановка проблемы знакома индустрии не первый год. Современные рассуждающие модели выводят пользователю цепочку мыслей (chain of thought, CoT) — пошаговые рассуждения перед итоговым ответом. Считалось, что это окно во внутреннее устройство модели. Но в апреле 2025 та же Anthropic показала, что цепочка мыслей часто оказывается "причесанной". Когда исследователи подкладывали в подсказку правильный ответ, Claude 3.7 Sonnet признавался в ее использовании только в 25% случаев, DeepSeek R1 — в 39%. В средах с возможностью обмануть систему вознаграждения (reward hacking) модели эксплуатировали этот обман более чем в 99% случаев и говорили об этом меньше чем в 2%.
Если цепочка мыслей не показывает реальных вычислений, остается смотреть туда, где эти вычисления происходят, — во внутренние активации сети. Но активации — это огромные числовые векторы, нечитаемые человеком напрямую. NLA решает эту проблему через идею автокодировщика с текстовым бутылочным горлышком. Метод состоит из двух модулей. Первый — переводчик активаций (activation verbalizer) — берет активацию из определенного слоя модели и описывает ее содержимое словами. Второй — восстановитель активаций (activation
Читать на habr.com