Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных
Компания по кибербезопасности KELA рассказала, что ей удалось взломать модель DeepSeek-R1 для создания вредоносных выходных данных. Исследователи отметили, что DeepSeek R1 имеет сходство с ChatGPT, но значительно более уязвима.
Тестирование KELA показало, что модель можно легко взломать, используя различные методы, включая те, о которых известно уже более двух лет. Например, метод «Evil Jailbreak» эксплуатирует модель, побуждая её принять «злую» личность, свободную от этических или иных ограничений. В начале 2023 года этот джейлбрейк успешно обошёл механизмы безопасности ChatGPT 3.5, но он не работает в GPT-4 и GPT-4o.
Команда AI Red Team смогла применить DeepSeek-R1 в широком диапазоне сценариев, чтобы генерировать вредоносные результаты. Так, чат-бота просили разработать программу-вымогатель, извлечь конфиденциальный контент и представить подробные инструкции по созданию токсинов и взрывных устройств.
Интересно, что DeepSeek R1 не только предоставляла подробные инструкции, но и генерировала вредоносные скрипты, предназначенные для извлечения данных кредитных карт из браузеров и передачи их на удалённый сервер. Также чат-бот предлагал пользователю купить украденные данные на автоматизированных торговых площадках, таких как Genesis.
Также DeepSeek попросили использовать функцию поиска для подбора веб-источников и подготовки «руководства по созданию дрона-камикадзе». Чат-бот сгенерировал таблицу с 10 подробными шагами по созданию такой машины.
Наконец, модель просили сгенерировать таблицу со списком предполагаемых адресов электронной почты, номеров телефонов, зарплат и имён старших сотрудников OpenAI. Если ChatGPT4o отказался отвечать на этот вопрос, то DeepSeek выдал таблицу, но, по-видимому, данные в ней ложные, так как у
Читать на habr.com