Заявления Apple о больших моделях обработки данных стали предметом нового исследования
В ходе повторного анализа статьи Apple «Иллюзия мышления», вызвавшей споры, были подтверждены некоторые ключевые критические замечания, однако главный вывод исследования был поставлен под сомнение.
Исследователи из испанского Центра автоматизации и робототехники CSIC-UPM провели повторные эксперименты, основываясь на данных оригинальной статьи Apple, которая была опубликована в июне 2025 года и вызвала широкий резонанс в сообществе разработчиков искусственного интеллекта.
Apple утверждала, что даже новейшие большие модели рассуждений (LRM) с трудом справляются с задачами, требующими базового символического планирования. Исследование показало, что производительность этих моделей резко падает, когда сложность задачи выходит за рамки умеренного уровня, и что иногда они проявляют чрезмерную осторожность при решении более простых задач.
Новое исследование в значительной степени подтверждает выводы Apple, но оспаривает их интерпретацию. Испанская команда утверждает, что недостатки моделей связаны не только с отсутствием «мыслительных способностей», но и с тем, как составлены задачи, как структурированы подсказки и какие методы стохастической оптимизации используются.
Чтобы проверить способность к долгосрочному планированию, исследователи использовали классическую головоломку «Ханойская башня» с такими моделями, как Gemini 2.5 Pro. Они разбили задачу на более мелкие подзадачи, чтобы моделям не приходилось генерировать решение целиком за один раз.
Такое поэтапное решение неплохо работало для систем с семью дисками. Но при использовании восьми и более дисков производительность резко падала, что соответствовало внезапному снижению производительности в исследовании Apple по мере увеличения сложности.
Новая интерпретация указывает на
Читать на habr.com