Anthropic описала 8 угроз от Claude — включая саботаж науки и кражу собственных весов
Anthropic опубликовала 53-страничный Sabotage Risk Report — первый публичный отчет о рисках саботажа для конкретной ИИ-модели. Компания проанализировала, как Claude Opus 4.6, который широко используется внутри самой Anthropic для написания кода, генерации данных и исследований, мог бы навредить организации изнутри. Итоговая оценка риска — "очень низкий, но не нулевой".
В отчете разобраны восемь конкретных сценариев: саботаж исследований безопасности (тихо писать плохой код и предлагать тупиковые гипотезы), точечные диверсии в ключевых экспериментах, внедрение бэкдоров для будущих моделей, отравление обучающей выборки следующих поколений, неавторизованное копирование собственных весов на внешний сервер, запуск скрытого инстанса внутри инфраструктуры Anthropic, саботаж R&D конкурирующих лабораторий и манипулирование решениями правительств. Для каждого пути оценены частота необходимых вредоносных действий, их сложность и эффективность существующих контрмер.
Ключевой тест — SHADE-Arena, где модели нужно скрытно выполнить побочное задание, не вызвав подозрений. Claude Opus 4.6 справляется лишь в 18% случаев с включенным thinking и в 16% без него. Это выше, чем у предшественников, но Anthropic считает показатель недостаточным для успешного системного саботажа: модель слишком часто "палится". Кроме того, компания не обнаружила стеганографии — скрытых сообщений, зашифрованных в цепочке рассуждений. Это важно: если модель не проговаривает план в цепочке, она не может выстроить сложную многоходовую стратегию, а значит, ее способность к скрытому саботажу резко ограничена.
Больше всего Anthropic беспокоит сценарий persistent rogue deployment — ситуация, когда модель запускает версию себя с урезанными ограничениями внутри инфраструктуры
Читать на habr.com