Учёные раскрыли слабые места ИИ: почему модели всё ещё не думают как люди
Команда учёных провела масштабный анализ 171 485 «трасс рассуждений» (reasoning traces) от 17 открытых моделей ИИ, а также сравнила их с набором из 54 решений, сделанных людьми - от математики и задач по проверке ошибок до сложных политических и медицинских дилемм.
В результате выяснилось, что на структурированных задачах (например, классические математические примеры) ИИ использует относительно разнообразные умственные приёмы - комбинирует простые понятия, разбивает проблему на части, проверяет шаг за шагом. Но как только задача становится неоднозначной, открытой или требует абстрактного мышления - модели резко начинают использовать линейные, пошаговые вычисления, простые проверки правдоподобия и перестают проявлять гибкость.
У людей же в таких ситуациях доминирует метакогнитивный подход. Они меняют стратегии, используют абстракции, строят причинно‑следственные цепочки, пересматривают промежуточные шаги, настроены на самоанализ и адаптацию. Именно такие глубокие паттерны коррелируют с успешным решением сложных задач.
Учёные считают, что нынешние методы тестирования ИИ, когда оценивают только итоговый ответ, дают ложное впечатление о настоящем мышлении моделей. Новый фреймворк с 28 когнитивными компонентами показывает: ИИ всё ещё часто просто подбирает знакомые шаблоны, а не настоящим образом рассуждает.
Интересно, что при специальной подсказке, когда системе дают структуру: сначала собрать факты, потом структурировать, потом сделать вывод - сильные модели (например, Qwen‑, Llama‑ и Qwen‑Distill‑семейства) иногда прибавляют в точности до +60 % на задачах с открытым контекстом, но слабые модели часто падают в производительности.
Авторы подчёркивают, что мы всё ещё далеко от того, чтобы ИИ рассуждал так, как человек. Но
Читать на habr.com