AI-модели, такие как Deepseek-R1 и OpenAI o1, страдают от «недомыслия»: как это можно исправить
Китайские исследователи выяснили, почему AI-моделям часто не удаётся справиться со сложными задачами, требующими логического мышления: они склонны слишком быстро отказываться от многообещающих решений, что приводит к напрасной трате вычислительных мощностей и снижению точности.
Исследователи из Tencent AI Lab, Университета Сучжоу и Шанхайского университета Цзяо Тун показывают, что модели-рассуждатели, такие как o1 от OpenAI, часто переключаются между различными подходами к решению задач, часто начиная с нуля, используя такие выражения, как «В качестве альтернативы…». Такое поведение становится более заметным по мере усложнения задач, и модели используют больше вычислительных мощностей, когда приходят к неправильным ответам.
Команда обнаружила, что 70% неверных ответов содержали по крайней мере одну верную логическую цепочку, которая не была полностью изучена. Когда модели давали неверные ответы, они использовали на 225% больше вычислительных токенов и меняли стратегии на 418% чаще, чем при верных ответах.
Чтобы отследить эту проблему, исследователи создали метрику, которая измеряет, насколько эффективно модели используют вычислительные токены, когда дают неправильные ответы. В частности, они смотрели, сколько токенов действительно способствуют поиску правильного решения, прежде чем модель перейдёт к другому подходу.
Команда протестировала это на трёх сложных наборах задач: вопросы для математических олимпиад, задачи по физике для студентов и задачи по химии. Они хотели посмотреть, как такие модели, как QwQ-32B-Preview и Deepseek-R1-671B, справляются со сложными рассуждениями. Результаты показали, что модели в стиле o1 часто тратят токены впустую, слишком быстро переключаясь между разными подходами. Удивительно, но модели,
Читать на habr.com