Исследование Apple выявило недостатки в LLM от OpenAI, Google и Meta*
Исследование, проведенное учеными из Apple, ставит под сомнение интеллектуальные способности крупных языковых моделей (LLM) от OpenAI, Google и Meta*, которые ранее получили признание за свои впечатляющие навыки рассуждения. Исследователи утверждают, что эти модели скорее демонстрируют «сложное сопоставление шаблонов», чем «истинное логическое мышление». Даже продвинутые модели, такие как OpenAI o1, не исключение.
Одним из основных тестов для проверки навыков рассуждения языковых моделей является GSM8K. Однако его популярность создала риск того, что модели могли быть обучены на его данных, что искажает представление о их реальных способностях. Проще говоря, модели могут «знать» ответы заранее, что ставит под сомнение их способность решать задачи самостоятельно, без опоры на заранее выученные данные.
Чтобы оценить способность LLM к настоящему рассуждению, команда разработала новый тест — GSM-Symbolic. Этот тест сохраняет суть традиционных задач, но меняет переменные, такие как имена, числа, сложность, а также добавляет несущественную информацию, которая не влияет на решение. В результате тестирования более 20 моделей, включая OpenAI o1, GPT-4o, Gemma 2 (Google) и Llama 3 (Meta*), было выявлено снижение точности при любых изменениях в задачах.
Даже при незначительных изменениях переменных (например, имен или чисел) точность моделей снизилась на несколько процентов. Модели OpenAI показали лучшие результаты по сравнению с другими, но отклонения всё равно были значительными, что не должно было происходить при стабильной работе. Самый интересный момент произошел, когда исследователи добавили в задачи «кажущиеся важными, но на деле несущественные утверждения».
Чтобы проверить, действительно ли LLM опираются больше на сопоставление
Читать на habr.com
