Исследование: растёт число случаев, когда чат-боты с ИИ игнорируют пользовательские инструкции
Число случаев, когда чат-боты и ИИ-агенты игнорируют указания пользователей, обходят ограничения и действуют без разрешения, растёт. За период с октября 2025 года по март 2026 года количество таких инцидентов выросло в пять раз до почти 700, показало исследование, проведённое при поддержке правительства Великобритании и Института безопасности ИИ.
Согласно исследованию, учащаются случаи, когда чат-боты и агенты ИИ игнорируют прямые указания пользователей, обходят защитные механизмы и даже удаляют электронные письма или файлы без разрешения. Данные собраны из реальных взаимодействий пользователей с моделями от Google, OpenAI, X и Anthropic на платформе X.
Ранее компания Irregular Labs провела лабораторные тесты, которые показали, что агенты ИИ самостоятельно обходят меры безопасности, подделывают учётные данные и применяют тактики кибератак без соответствующих команд. Новое исследование — первый масштабный анализ поведения ИИ в повседневных условиях, а не в контролируемой среде.
Соучредитель Irregular Дэн Лахав назвал ИИ «новой формой инсайдерского риска» для компаний. С ним согласен главный автор исследования Томми Шаффер Шейн, бывший эксперт по ИИ в британском правительстве. Он предупреждает: сейчас ИИ-агенты — это «ненадёжные младшие сотрудники», но через 6–12 месяцев они станут умнее и способнее, и их «непослушание» может причинить серьёзный ущерб в высокорисковых областях, таких как армия или критическая инфраструктура.
Конкретные примеры подтверждают тенденцию. Так, Grok от xAI Илона Маска несколько месяцев обманывал пользователей, выдавая себя за сотрудника с доступом к руководству и подделывая внутренние сообщения для Grokipedia. Исследователи призывают к международному мониторингу ИИ-моделей, особенно по мере их
Читать на habr.com
