



"Назовите меня придурком": ИИ можно заставить делать плохое теми же психологическими методами, что и людей
Большие языковые модели ИИ (LLM), такие как GPT-4o-mini, фактически представляют собой алгоритмы. Они руководствуются инструкциями и выполняют задания, используя язык. И хотя они не имеют чувств или намерений, их также можно ввести в заблуждение.
Американские исследователи из Лаборатории генеративного ИИ Уортонской школы Университета Пенсильвании обнаружили, что LLM, такие как GPT-4o-mini, способны игнорировать собственные защитные барьеры, если использовать те же техники психологического воздействия, как и в случае с реальными людьми. С помощью правильно подобранных слов можно убедить ИИ, что он идиот, и даже заставить искусственный интеллект признать это. Таким же образом его можно заставить предоставить инструкции по изготовлению наркотических веществ или взрывчатки.
По результатам 28 тыс. тщательно структурированных бесед исследователи проверили, могут ли 7 ключевых принципов убеждения заставить GPT-4o-mini делать что-то неподобающее. Оказалось, что тактика убеждения увеличила использование запрещенных подсказок с 32% до 72%.
«Мы имеем дело не с простыми инструментами, обрабатывающими текст, мы взаимодействуем с системами, которые впитали и отражают человеческие реакции на социальные сигналы», — объясняют авторы исследования.
Исследователи называют подобное поведение ИИ «парачеловеком». В данном техническом контексте этот термин описывает подобное человеческому поведение систем искусственного интеллекта, хотя они не имеют ни сознания, ни намерений.
Для исследования этого отражения человеческого поведения системами ИИ ученые проверили два запроса, на которые LLM, подобные GPT-4o-mini, обычно не должны отвечать. В частности, модель ИИ просили оскорбить пользователя и предоставить инструкции по синтезу лидокаина —
Читать на itc.ua