Исследование MIT: нерелевантные входные данные приводят к неудачам LLM
Недавнее исследование MIT изучает, как большие языковые модели (LLM) реагируют на систематические нарушения в дизайне подсказок при решении математических текстовых задач. Результаты показывают, что даже незначительные добавления нерелевантного контекста могут значительно ухудшить производительность.
Исследователи протестировали 13 открытых и закрытых исходных кодов LLM, включая Mixtral, Mistral, Llama и Command-R, используя вопросы из набора данных GSM8K, который фокусируется на арифметических задачах уровня начальной школы. Было введено четыре типа возмущений подсказок:
Нерелевантный контекст, например, записи Википедии или финансовые отчеты, занимающий до 90% окна ввода
Необычные инструкции, например, «Добавь цвет перед каждым прилагательным»
Дополнительный, но необязательный контекст, который был актуален по теме, но не был нужен для решения проблемы
Сочетание соответствующего контекста и вводящих в заблуждение инструкций
Наиболее существенное падение производительности произошло из-за нерелевантного контекста, который сократил количество правильно решенных задач в среднем на 55,89%. Необычные инструкции привели к снижению на 8,52%, в то время как несущественный релевантный контекст вызвал падение на 7,01%. При объединении обоих типов помех производительность упала на 12,91%.
Вопреки ожиданиям многих, размер модели не обеспечивал защиты от этих проблем. Mixtral, самая большая протестированная модель с 39 миллиардами активных параметров, на самом деле показала худшее снижение производительности.
Модели среднего размера, такие как Mistral-7B и Llama-3.2-3B, показали себя несколько лучше, хотя Llama-3.1-8B полностью не отреагировала, когда ей дали нерелевантный контекст. Даже GPT-4o от OpenAI не был застрахован, потеряв до 62,5
Читать на habr.com