Microsoft Research: системы ИИ невозможно сделать полностью безопасными
Исследователи Microsoft Research, которые проверили безопасность более 100 собственных продуктов генеративного ИИ, пришли к выводу, что эти модели усиливают существующие риски безопасности и создают новые.
Они опубликовали статью «Уроки из красной команды 100 генеративных продуктов ИИ», в которой 26 авторов заявили, что «работа по обеспечению безопасности систем ИИ никогда не будет завершена».
Исследователи, среди которых выступает технический директор Azure Марк Руссинович, утверждают, что в дальнейшем стоимость атак на системы ИИ может быть увеличена, как это уже произошло в других сферах IT.
Авторы признают, что в сфере ИИ предстоит проделать много работы, в том числе «понять, что может делать система и где эта работа применяется». Только так можно будет обеспечить эффективные меры защиты.
«Например, при тестировании серии языковых моделей Phi-3 мы обнаружили, что более крупные модели, как правило, лучше следуют инструкциям пользователя, и это является основной возможностью, которая делает модели более полезными», — утверждают авторы. Однако это означает, что такие модели с большей вероятностью будут следовать вредоносным инструкциям.
Авторы также советуют учитывать последствия безопасности в контексте назначения модели. Например, атака на LLM, разработанную для помощи в письме, вряд ли создаст организационный риск, но состязательные действия, направленные против LLM, обобщающего истории болезни пациентов, могут привести к нежелательным результатам.
Также исследователи сделали вывод, что для взлома систем ИИ не нужно вычислять градиенты. Атаки на основе градиентов работают путём тестирования входных данных состязательных токенов, где доступны параметры и архитектура модели. Это актуально для моделей с открытым исходным
Читать на habr.com