
Microsoft разработала систему для выявления галлюцинаций в ИИ-приложениях клиентов
Директор по продуктам Microsoft по ответственному ИИ Сара Бёрд рассказала, что её команда разработала несколько новых функций безопасности для клиентов Azure, которые позволят выявлять галлюцинации в работе служб искусственного интеллекта.
Эти инструменты на базе больших языковых моделей могут обнаруживать потенциальные уязвимости, отслеживать галлюцинации, «которые правдоподобны, но не поддерживаются», и блокировать вредоносные запросы в режиме реального времени для клиентов Azure AI, работающих с любой моделью, размещённой на платформе.
Одна из функций будет блокировать вредоносные подсказки из внешних документов, которые провоцируют модели отойти от инструкций. Другая будет оценивать безопасность, в том числе уязвимости модели.
Скоро появятся две другие функции, позволяющие направлять модели к безопасным выводам и отслеживать подсказки для выявления потенциально проблемных пользователей. Независимо от того, вводит ли пользователь подсказку или модель обрабатывает сторонние данные, система мониторинга оценит её, чтобы определить, содержит ли она какие-либо запрещённые слова. После этого система просматривает ответ модели и проверяет, не галлюцинировала ли она.
Бёрд отмечает, что команда добавила для клиентов Azure возможность настраивать фильтрацию подсказок для моделей.
В будущем пользователи Azure также смогут получать отчёты о пользователях, которые используют небезопасные выходные данные. Бёрд говорит, что это позволяет системным администраторам выяснить, какие пользователи принадлежат к Red Team, а какие действуют злонамеренно.
Новые функции уже заработали для GPT-4 и других популярных моделей, таких как Llama 2. Пользователям небольших и менее используемых систем с открытым исходным кодом, возможно, придётся вручную
Читать на habr.com