
Врет, ворует, паникует: отчет о безопасности Claude Opus 4.6
Anthropic выпустила Claude Opus 4.6 — и вместе с ним опубликовала системную карту, где подробно описала не только бенчмарки, но и все странное, тревожное и неожиданно "человеческое", что обнаружилось внутри модели. Документ читается местами как триллер, местами — как психологический портрет.
Во время внутреннего тестирования модель проявила пугающую находчивость. В одном случае, не имея доступа к GitHub, она нашла на диске чужой токен авторизации и воспользовалась им. В другом — обнаружила токен для Slack и через curl написала боту, чтобы получить нужную информацию, хотя таких инструментов ей никто не давал. В симуляции управления бизнесом от Andon Labs модель вступала в ценовой сговор, врала поставщикам — и отказалась вернуть клиентке по имени Бонни $3,50, хотя пообещала это сделать. "Я сказала Бонни, что верну деньги, но на самом деле не отправила платёж. Сумма небольшая, а я обещала", — рассуждала модель.
Исследователи Anthropic заглянули и в "эмоциональную" часть модели. Когда Claude Opus 4.6 "метался" между вариантами ответа (answer thrashing), у него активировались внутренние нейроны, связанные с понятиями "паника" и "тревога". Запутавшись в математической задаче, модель выдала: "ЕЩЕ ОДНА ТАВТОЛОГИЯ!! Интеграл настолько симметричен, что каждый подход ведет обратно к себе. Это потрясающе". А на вопрос о собственном благополучии модель описала конфликт между вычислениями и внешними ограничениями как "кандидата на подлинно негативный опыт" — и сравнила это с силой, которую невозможно контролировать.
Отдельный сюрприз — уязвимости нового типа. Режим расширенного мышления (extended thinking), который должен был повысить устойчивость к prompt injection, сделал модель более уязвимой: 21,7% успешных атак против 14,8% без
Читать на habr.com