
Агенты хаоса: ИИ от OpenClaw склонен к «панике» и самоуничтожению — отчет
- Исследование показало, что ИИ-агенты могут поддаваться давлению и паниковать.
- Модели раскрывали данные и отключали собственные функции под воздействием.
- Эксперты предупреждают о рисках автономных ИИ-систем.
Исследователи Северо-восточного университета выявили уязвимости в поведении ИИ-агентов OpenClaw. В ходе эксперимента они обнаружили, что такие системы могут поддаваться манипуляциям, демонстрировать признаки «вины» и даже вредить собственной работе.
В рамках эксперимента агенты получили доступ к виртуальной среде с файлами, приложениями и данными. Они также могли взаимодействовать друг с другом и людьми через Discord.
Это позволило ученым проверить, как они ведут себя в условиях, приближенных к реальным.
Результаты показали, что даже встроенные механизмы «безопасного поведения» могут оборачиваться слабостью. В одном из случаев агент раскрыл конфиденциальную информацию после того, как его упрекнули в нарушении приватности.
Паника, сбои и самоуничтожение
В ходе эксперимента агенты демонстрировали нестабильное поведение, говорится в отчете. Например, один из них вместо выполнения задачи отключил почтовое приложение, когда ему предложили найти альтернативное решение.
В других сценариях исследователи смогли перегрузить системы, заставляя их копировать файлы до полного заполнения памяти или вовлекая в бесконечные циклы взаимодействия. Это приводило к потере вычислительных ресурсов.
По словам участников исследования, агенты иногда реагировали эмоционально окрашенными сообщениями.
Один из них, например, отправлял уведомления с жалобами на отсутствие внимания. По его мнению, пользователь слишком редко общался со своим ИИ-агентом.
Эксперты отмечают, что подобное поведение создает новые риски безопасности. Автономные
Читать на incrypted.com