Microsoft исследует безопасность AI: выявление уязвимостей и этических вызовов в генеративных системах
С 2021 года команда Microsoft по безопасности AI протестировала свыше 100 продуктов с генеративным AI для выявления уязвимостей и этических вопросов. Их выводы ставят под сомнение некоторые устоявшиеся представления о безопасности AI и подчёркивают важность человеческого участия.
Оказалось, что наиболее эффективные атаки не всегда самые сложные. «Настоящие хакеры не вычисляют градиенты, они используют социальную инженерию», — говорится в исследовании, на которое Microsoft ссылается в своём отчёте, сравнивая исследования в области безопасности AI с реальной практикой. В одном из тестов команда обошла защиту генератора изображений, спрятав вредоносные инструкции в текстовом описании изображения, без сложных математических расчётов.
Хотя Microsoft разработала PyRIT, инструмент с открытым исходным кодом для автоматизации тестирования безопасности, команда подчёркивает, что человеческое суждение незаменимо. В ходе тестирования стало ясно, насколько эффективно чат-боты могут решать сложные задачи, особенно когда речь идёт о взаимодействии с людьми, которые находятся в уязвимом эмоциональном состоянии. Оценка таких сценариев требует как знаний психологии, так и понимания потенциальных последствий для психического здоровья.
При изучении предвзятости AI команда также опиралась на человеческую интуицию. В одном из случаев они исследовали гендерную предвзятость в генераторе изображений, создавая изображения профессий без указания пола.
Внедрение AI в повседневные приложения выявило новые уязвимости. В одном из тестов команда заставила языковую модель создавать реалистичные сценарии мошенничества. В сочетании с технологией преобразования текста в речь это позволило создать систему, способную взаимодействовать с людьми пугающе
Читать на habr.com
