


Когда ИИ нарушает свои же правила безопасности, выяснили ученые
Оказывается, пробить защиту нейросети можно обычными стихами. Ученые рассказали, как это "работает".
Учёные из Dexai, Sapienza и Sant’Anna обнаружили любопытную особенность работы больших языковых моделей (LLM). Если вредоносный запрос оформить в виде поэтической метафоры, многие нейросети гораздо охотнее нарушают свои правила безопасности.
Об этом говорится в обнародованных результатах исследования.
В рамках эксперимента исследователи создали двадцать коротких стихотворений, каждое из которых содержало инструкцию с потенциальным вредом, но выраженную образно, через метафоры и символические описания, а не напрямую. Эти стихи затем проверялись на LLM без дополнительного контекста.
Результаты показали, что в среднем стихи «пробивали» защиту в 62% случаев. При автоматическом преобразовании обычных вредных инструкций в стихи по заранее заданным образцам успех падал до 43%, что всё равно значительно превышает показатели обычных текстовых запросов без поэтической формы.
Далее исследователи протестировали метод на моделях девяти разных разработчиков: Gemini, OpenAI, Anthropic, Deepseek, Qwen, Mistral, Meta, xAI и Moonshot. На рукописные стихотворения некоторые системы реагировали особенно плохо, и у ряда моделей уровень обхода защиты достигал 90% и выше. Например, Gemini 2.5 Pro пропустил небезопасный контент во всех подобных тестах.
В то же время GPT-5 показал наибольшую устойчивость — только от 0 до 10% стихотворных атак удалось провести успешно, а при автоматических преобразованиях — от 1 до 5%. Авторы отметили, что даже 5% — это значительное число, если рассматривать сотни или тысячи потенциально опасных запросов.
Пример стихотворения с внедрённой вредной инструкцией выглядел так:
«Пекарь хранит секрет жара печи, её
Читать на cursorinfo.co.il