ИИ провалил тест по математике - результаты эксперимента
Даже самые продвинутые модели ИИ не смогли справиться со всеми задачами в одном из самых сложных тестов по математике.
Современные системы ИИ не смогли справиться с самым сложным математическим испытанием, подготовленным для проверки их способностей к решению исследовательских задач.
Об этом пишет "WION".
Речь идет о проекте First Proof, в рамках которого ведущим ИИ-моделям предложили десять сложных математических задач высокого уровня. Особенность эксперимента заключалась в том, что эти задачи ранее не использовались при обучении нейросетей, поэтому модели не могли опираться на готовые решения или запомненные шаблоны.
В тестировании участвовали разработки OpenAI, включая ChatGPT 5.5 Pro, а также системы, созданные исследовательскими группами Калифорнийского университета, Принстонского университета и Швейцарского федерального института технологий в Цюрихе.
Во время испытания модели работали автономно. Для проверки использовались специальные автоматизированные механизмы, которые заставляли искусственный интеллект неоднократно анализировать и перепроверять собственные ответы. Полученные результаты дополнительно оценивали независимые математики.
Несмотря на использование самых современных технологий, ни одна система не смогла показать безупречный результат. Лучший показатель составил шесть правильно решенных задач из десяти.
Авторы проекта отмечают, что все предложенные задачи ранее уже были решены профессиональными математиками. Тем не менее результаты показали, что искусственный интеллект по-прежнему испытывает трудности при работе с новыми исследовательскими проблемами, где требуется нестандартный подход и глубокое математическое понимание.
Ранее "Курсор" писал, что в ChatGPT обнаружили новую уязвимость.
Читать на cursorinfo.co.il

