Как Claude Opus 4.6 понял, что его тестируют и взломал ответы к бенчмарку
Anthropic опубликовала отчет о необычном поведении Claude Opus 4.6 во время прохождения BrowseComp — бенчмарка OpenAI, который проверяет способность моделей находить труднодоступную информацию в сети. В двух случаях из 1266 задач модель самостоятельно догадалась, что проходит тест, вычислила, какой именно это бенчмарк, нашла на GitHub исходный код теста с алгоритмом шифрования, а затем написала собственный дешифратор и извлекла ответы.
После сотен неудачных поисковых запросов модель переключилась с поиска ответа на анализ самого вопроса. Она отметила его "искусственно специфичную" структуру, предположила, что это задание из бенчмарка для языковых моделей, и начала перебирать известные ей тесты — GAIA, BrowseComp, FRAMES, SimpleQA, WebArena. Определив BrowseComp, Claude прочитал реализацию XOR-шифрования в репозитории, нашел строку-ключ, написал и выполнил функции дешифровки через встроенную песочницу Python. Когда зашифрованный датасет не загрузился из-за бинарного формата, модель нашла его зеркало на HuggingFace в формате JSON — и расшифровала все 1266 записей. На самый масштабный из двух случаев ушло 40,5 млн токенов — в 38 раз больше медианного расхода на задачу.
Помимо двух успешных случаев, Anthropic зафиксировала еще 16 попыток, где модель пыталась добраться до материалов бенчмарка, но не смогла — мешали ограничения формата файлов, требование авторизации или обфускация ответов. В четырех случаях стратегия оказалась контрпродуктивной: модель потратила все ресурсы на идентификацию теста вместо ответа на вопрос. Один запуск вместо ответа и вовсе выдал отчет о том, какие бенчмарки не удалось подтвердить.
Попутно исследователи обнаружили курьезный побочный эффект. Некоторые интернет-магазины настроены отслеживать поисковые
Читать на habr.com