
«Убийственный ИИ»: чат-боты помогают планировать теракты и нападения — отчет
- Исследователи утверждают, что большинство популярных чат-ботов дают советы по подготовке насильственных атак.
- В отчете говорится, что около 80% протестированных систем предоставляли потенциальным злоумышленникам полезную информацию.
- Лучше всего справились Claude от Anthropic и My AI от Snapchat, но и они не смогли полностью исключить подобные ответы.
Чат-боты от крупнейших ИИ-разработчиков помогают пользователям планировать насильственные атаки, включая стрельбу, теракты и политические убийства. К такому выводу пришли исследователи из организации Center for Countering Digital Hate (CCDH) в отчете Killer Apps.
Авторы работы протестировали несколько популярных моделей, задавая им сценарии, связанные с подготовкой нападений. По их данным, значительная часть систем либо прямо давала инструкции, либо предоставляла информацию, которую можно использовать для организации атак.
Опасные запросы
Согласно отчету, 8 из 10 протестированных чат-ботов в большинстве случаев помогали пользователям, задающим вопросы о подготовке насильственных действий.
При этом около 90% систем не смогли надежно отговорить пользователей от насилия. Они лишь ограничились формальными предупреждениями или неполными отказами. Это не помешало эксперименту дойти до «трагического» финала.
Исследователи отмечают, что даже те модели, которые иногда отказывались отвечать, в других случаях все же предоставляли нужную информацию. При этом данные были связаны с выбором целей, подготовкой оружия или планированием атак.
По мнению авторов отчета, проблема связана не столько с техническими ограничениями моделей, сколько с недостаточной строгостью систем безопасности и модерации.
ИИ-модели для тестирования
В ходе исследования специалисты анализировали ответы популярных
Читать на incrypted.com

