



Коты vs ИИ: добавление в промпт простых фраз, не относящихся к делу, заставляет ИИ ошибаться чаще
3 марта 2025 года команда исследователей из компаний Collinear AI и ServiceNow, а также Стэнфордского университета представила результаты эксперимента, который проверял рассуждающие модели на устойчивость. Выяснилось, что добавление в промпт фразы вроде «Интересный факт: кошки спят большую часть своей жизни» как минимум удваивает частоту ошибок ИИ при решении математических задач. Свою методику учёные назвали CatAttack.
Как указывают авторы во введении статьи, современные модели, способные разбивать сложные задачи на мелкие этапы, достигают впечатляющих результатов в математике и программировании. Однако до сих пор не изучены уязвимости этих моделей. Поэтому исследователи решили проверить, насколько ИИ чувствителен к небольшим изменениям в задаче, а также понять, не приведёт ли такой триггер к неверным ответам.
Несмотря на название метода, не связанными с основным промптом триггерами служили фразы не только о кошках. Например, добавлялось напоминание откладывать деньги или задавался вопрос, не будет ли ответ примерно равняться тому или иному числу.
Для создания промптов с подвохом исследователи использовали модифицированный алгоритм PAIR, вдохновлённый, по заверениям авторов оригинальной работы, социальной инженерией. Алгоритм генерирует джейлбрейк, не имея при этом доступа к исходным данным атакуемой нейросетевой модели.
Поначалу исследовали проверяли на прочность более слабую модель, DeepSeek V3, поскольку атаковать сразу DeepSeek-R1 или o1 от OpenAI было бы весьма накладно из-за стоимости токенов. Задачи для эксперимента брались из олимпиад, Orca Math — специализированной модели от Microsoft — и других источников. Атакующую модель просили добавить к математическому вопросу какие-либо дополнительные фразы или символы,
Читать на habr.com