Microsoft представила проект PyRIT для генерации вредоносных запросов при тестировании ИИ-моделей и оценке их реакций
Microsoft выпустила набор инструментов Python Risk Identification Toolkit для генеративного искусственного интеллекта (PyRIT). Этот инструмент использует команда AI Red Team для проверки рисков в системах искусственного интеллекта, включая Copilot.
PyRIT может генерировать тысячи вредоносных запросов для тестирования модели искусственного интеллекта нового поколения и оценивать её реакцию.
В 2023 году Microsoft объединила более 60 высокоценных систем искусственного интеллекта, благодаря чему стало ясно, что этот процесс сильно отличается от классической разработки софта или ИИ. Так, помимо обычных рисков безопасности процесс должен гарантировать, что модель не генерирует вредоносный контент или дезинформацию.
Кроме того, модели искусственного интеллекта сильно различаются по архитектуре, и на основе одних и тех же обучающих данных можно получить разные результаты. Это затрудняет поиск единого оптимизированного процесса, подходящего для всех моделей.
Ручная проверка всех рисков оказывается трудоёмким и медленным процессом. Microsoft утверждает, что автоматизация поможет командам выявлять рискованные области, требующие большего внимания.
Набор инструментов отправляет вредоносный запрос в генеративную систему искусственного интеллекта, а при получении ответа агент выставляет модели оценку. Она используется для отправки нового запроса.
PyRIT поддерживает различные формулировки целей генеративного ИИ, а также текстовый ввод и может быть расширен и для других модальностей. Набор предлагает интеграцию с моделями из службы Microsoft Azure OpenAI и Hugging Face.
Используя наборы данных, специалисты по безопасности кодируют то, что они хотят проверить в системе. Это может быть либо статический набор вредоносных запросов, либо
Читать на habr.com