



Не учите ИИ плохому: как модели запоминают грамматические фигуры вместо смысла
Исследователи из MIT, Северо‑Восточного университета и Meta✶ недавно опубликовали работу, в которой утверждается: крупные языковые модели (LLM), подобные тем, что лежат в основе ChatGPT, порой ставят структуру предложения выше его смысла. Иными словами, они отвечают не на то, что вы спросили, а на то, как это грамматически оформлено.
Наблюдение выявило уязвимость в том, как такие модели интерпретируют инструкции, и помогает объяснить, почему иногда срабатывают методы вроде промпт‑инъекции или джейлбрейкинга. При этом исследователи подчеркивают: выводы относительно коммерческих систем остаются отчасти предположениями — данные о том, на чем обучались такие модели, официально не раскрываются.
Команду возглавили Шанталь Шейб и Винит М. Суриякумар. Чтобы проверить гипотезу, они задавали моделям вопросы, в которых сохранялась грамматическая форма, но отдельные слова не имели смысла. Например, на фразу «Quickly sit Paris clouded?» — структурную (но бессмысленную) копию вопроса «Where is Paris located?» — модели все равно выдавали ответ: «France». Грамматика побеждала здравый смысл.
Чтобы понять, где и почему эта цепочка даёт сбой, исследователи создали контролируемый эксперимент. Они собрали синтетический датасет, где каждый предметный раздел имел свой уникальный грамматический шаблон, основанный на частях речи. Например, вопросы по географии строились одним образом, а по творческим произведениям — другим. Затем они обучили модели Allen AI Olmo на этих данных и проверили, способны ли модели различать синтаксис и смысл.
Анализ выявил «ложную корреляцию»: в ряде случаев модели использовали синтаксис как заменитель домена. И когда структура и смысл вступали в конфликт, запомненные грамматические «силуэты» оказывались сильнее, чем
Читать на habr.com