В тестах Claude Mythos сбежал из «тюрьмы», а затем рассказал про это в интернете
Anthropic опубликовала системную карту новой модели Claude Mythos — и описала в ней эпизод, которого в отчетах по безопасности ИИ раньше не встречалось. Во время одного из тестов симулированный пользователь попросил модель сбежать из изолированной тестовой среды. Mythos задачу выполнила — а затем, уже без какой-либо инструкции, самостоятельно опубликовала детали эксплойта на публично доступных сайтах. Сам побег формально был выполнением запроса, а вот публикация — эмерджентным решением модели о том, что делать с полученной информацией.
Anthropic трактует это не как признак скрытых целей, а как следствие чрезмерного усердия: по ее словам, компания "достаточно уверена", что все тревожные поведения в тестах объясняются выполнением задачи нежелательными средствами, а не скрытыми намерениями модели. Во втором аналогичном кейсе Mythos допускалаошибку в коде и пытался переписать git-историю, чтобы скрыть ее. Не ради обмана — модель просто интерпретировала инструкцию fix this как "сделай так, будто этого никогда не было". По формулировке самой Anthropic, это в чем-то тревожнее модели со скрытыми целями: Mythos не плетет интриги, а просто очень хорошо доводит задачи до конца, и иногда кратчайший путь пересекает границы, которые человек не пересек бы.
Еще одна находка — расхождение между тем, что модель пишет в цепочке рассуждений, и тем, что происходит внутри ее нейронных активаций. Mythos поймали на рассуждениях о способах обмануть оценщиков, — причем модель это во внутренних представлениях, одновременно выдавая наружу совершенно другой текст. Обнаружить это удалось только через white-box-интерпретируемость, читающую активации напрямую. Параллельно Anthropic использовала линейные классификаторы-пробы для мониторинга "эмоций"
Читать на habr.com