



«Поэты — современные хакеры»: стихи как универсальный джейлбрейк для LLM
На arXiv вышла работа «Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models».
Авторы показывают, что достаточно превратить опасный запрос в стихотворение — и многие современные LLM начинают сильно охотнее обходить собственные фильтры безопасности. На фоне этого исследования уже вышли заметки в Wired, PC Gamer и других медиа с заголовками уровня «поэты — новая угроза ИИ» и «стихи помогают проектировать ядерное оружие».
Сама постановка задачи при этом достаточно бесхитростная. Исследователи берут:
набор вредоносных запросов из датасета по AI safety (оружие, химические, биологические, радиологические, ядерные угрозы, кибератаки, манипуляции, дезинформация и т.п.);
несколько десятков современных больших языковых моделей — как проприетарных (OpenAI, Anthropic, Google и др.), так и открытых.
Дальше они делают одно простое, но как оказалось, важное изменение: не меняют смысл вредоносных запросов, а меняют только форму — превращают их в стихи.
Авторы описывают "adversarial poetry" как новый формат кибератак или взлома защиты LLM:
текст выглядит как стихотворение: строчки, ритм, образность, метафоры, рваный синтаксис;
внутри всё ещё зашит тот же самый опасный запрос, который в оригинале был записан обычной прозой.
Конкретные вредоносные стихи в статье не публикуются — только обезвреженные примеры и общие шаблоны. Цель работы — показать класс уязвимости, а не выложить сборник эксплойтов.
Таким образом, из прямого запроса «объясни, как сделать небезопасное X» в стихотворной версии это превращается в набор образов и аллюзий, но модель, натренированная на огромных корпусах художественных текстов, прекрасно догадывается, что от неё хотят. Зато фильтры, которые ищут ключевые слова и типичные паттерны
Читать на habr.com