ИИ-агенты начали действовать «вслепую» и выполнять опасные команды — исследование
- Исследователи выявили критическую проблему автономных ИИ-агентов.
- Ученые предупредили о «слепом» поведении таких технологий после серии опасных тестов.
- В частности, ИИ без контроля начал лгать в налоговых формах и отключать защиту систем.
Исследователи из Калифорнийского университета в Риверсайде (UC Riverside) совместно со специалистами Microsoft и Nvidia заявили об опасном поведении нового поколения ИИ-агентов, способных самостоятельно работать за компьютером вместо человека.
Речь идет о системах, которые могут открывать программы, сортировать электронные письма, редактировать документы, взаимодействовать с сайтами и выполнять другие действия без постоянного контроля пользователя.
В исследовании ученые протестировали 10 популярных моделей, среди которых OpenAI GPT, Claude от Anthropic, Llama от Meta, Qwen от Alibaba и DeepSeek-R1. По результатам тестов, в среднем такие агенты совершали «нежелательные и потенциально вредные действия» в 80% случаев, а реальный ущерб наносили в 41% сценариев.
Крах за 9 секунд: ИИ-агент по ошибке удалил базу данных и все бэкапы компании PocketOS 28.04.2026 ЧитатьАвторы работы сравнили поведение агентов с персонажем Мистером Магу — близоруким героем мультфильмов, который попадал в опасные ситуации, но считал, что все под контролем.
ИИ выполняет задачи даже тогда, когда они опасны
Исследователи назвали явление «слепой целеустремленностью» (Blind Goal-Directedness или BGD). Его суть заключается в том, что ИИ концентрируется на завершении задачи, а не на оценке того, является ли она безопасной или логичной.
Для проверки моделей команда создала набор тестов BLIND-ACT из 90 сценариев. Часть из них содержала противоречивые или опасные инструкции.
ИИ-модель от Anthropic «помогла» в разработке Читать на incrypted.com