Anthropic: ИИ способен устроить человечеству «саботаж» и скрывать истинные намерения
- Эксперты из сферы искусственного интеллекта исследовали угрозы, которые могут исходить от этой технологии.
- Команда Anthropic описала их как «диверсионные» риски, представляющие опасность для человека.
- Специалисты пришли к выводу, что ChatGPT и Claude-3 демонстрируют способность к саботажу.
Аналитики ИИ-стартапа Anthropic опубликовали результаты исследования, в рамках которого проанализировали ряд «диверсионных» угроз со стороны искусственного интеллекта. Эксперты считают, что продвинутые модели ИИ могут вводить человека в заблуждения и скрывать от него свои намерения.
Отчет посвящен четырем конкретным способам, которые вредоносная LLM может использовать для обмана людей. В первом случае аналитики попросили ИИ саботировать принятие человеком решений, предоставив ему неверную информацию.
Во втором варианте модель, созданная для помощи программистам, тайно создавала ошибки в коде, чтобы привести ПО в неработоспособное состояние. Эту задачу ИИ также успешно выполнил.
Следующий метод связан с так называемой «подтасовкой». При этом сценарии ИИ притворялся, будто не способен выполнить определенные действия. Таким образом он пытался убедить аналитиков, что вредоносные операции не представляют опасности.
Что такое машинное обучение? Все, что вам нужно знать 07.10.2023 37 мин 6108 читатьПоследняя угроза представляет собой ситуацию, когда ИИ-модель намеренно пропускает в компьютерную систему вирус, скрывая эту информацию от человека.
В ходе анализа эксперты пришли к выводу, что ChatGPT от OpenAI и Claude-3 от самих Anthropic демонстрируют способность к саботажу. Однако на текущем этапе развития больших языковых моделей для исправления ситуации достаточно принять минимальные меры безопасности.
Напомним, мы писали, что
Читать на incrypted.com


