Исследование Pfizer о причинах трудностей больших языковых моделей при решении задач
Новый комментарий исследователей из Pfizer ставит под сомнение основные выводы исследования «Иллюзия мышления», соавторами которого являются учёные из Apple.
В статье, написанной Apple, утверждается, что это внезапное снижение производительности указывает на фундаментальный предел возможностей машинного мышления. Другие исследования показали аналогичные результаты, но не называют это жёстким ограничением.
Команда Pfizer также не согласна с интерпретацией Apple. Они утверждают, что снижение производительности вызвано не когнитивным барьером, а искусственными условиями тестирования. Если заставлять модели работать только в текстовой среде — без таких инструментов, как интерфейсы программирования, — сложные задачи становятся намного труднее, чем необходимо. То, что кажется проблемой мышления, на самом деле является проблемой выполнения.
В оригинальном исследовании такие модели, как Claude 3.7 Sonnet-Thinking и Deepseek-R1, тестировались на текстовых головоломках — «Ханойская башня» или «Переправа через реку». По мере усложнения головоломок точность моделей резко снижалась — это явление в исследовании назвали «обрывом рассуждений».
Команда Pfizer указывает на нереалистичные ограничения теста: модели не могли использовать внешние инструменты и должны были отслеживать всё в виде обычного текста. Это не выявило ошибок в рассуждениях, но сделало практически невозможным для моделей выполнение длительных и точных шагов по решению задач.
В качестве примера исследователи из Pfizer рассмотрели модель o4-mini. Без доступа к инструментам она объявила решаемую головоломку «Переправа через реку» неразрешимой, вероятно, потому, что не могла вспомнить предыдущие шаги. Это ограничение памяти — хорошо известная проблема современных языковых
Читать на habr.com