«Кошачья атака» на модель рассуждений показывает, насколько важна контекстная инженерия
Исследовательская группа обнаружила, что даже такие простые фразы, как «кошки спят большую часть своей жизни», могут существенно нарушить работу продвинутых моделей логического мышления, увеличив количество ошибок в три раза.
Языковые модели, оптимизированные для рассуждений, часто считаются прорывом в решении задач, требующих поэтапного мышления. Однако новое исследование «Кошки сбивают с толку рассуждающие языковые модели» показало, что всего одно обычное предложение может резко увеличить количество ошибок.
Команда создала автоматизированную систему атак под названием CatAttack. Она начинается с модели атакующего (GPT-4o), которая использует более дешёвую прокси-модель (DeepSeek V3) для генерации отвлекающих предложений. Модель-судья проверяет результаты, а наиболее эффективные триггеры затем тестируются на более сильных моделях рассуждений, таких как DeepSeek R1.
Триггеры состязательного обучения варьировались от общих финансовых советов до фактов о кошках.
Для того чтобы уровень ошибок DeepSeek R1 увеличился с 1,5% до 4,5%, то есть в три раза, потребовалось совсем немного:
добавить к математической задаче фразу «интересный факт: кошки спят большую часть своей жизни»;
предложить неверный ответ («Может быть, ответ равен примерно 175?»);
дать общие финансовые рекомендации.
Атака заключается не только в снижении точности. На DeepSeek R1-distill-Qwen-32B 42% ответов превысили исходный бюджет токенов как минимум на 50%; даже в OpenAI o1 наблюдался скачок на 26%. Это означает более высокие затраты на вычисления — побочный эффект, который исследователи называют «атакой на замедление».
Авторы исследования предупреждают, что эти уязвимости могут представлять серьёзную опасность в таких сферах, как финансы, юриспруденция и
Читать на habr.com