OpenAI заявила о 6 решениях из 10 в «самом сложном тесте для ИИ». Математики не согласны
Группа из 11 ведущих математиков — среди которых филдсовский лауреат Мартин Хайрер — опубликовала 5 февраля десять исследовательских задач, которые никогда не появлялись в открытом доступе. Инициатива получила название First Proof и задумывалась как первый честный тест способности ИИ решать задачи уровня реальной математической науки, а не олимпиад. Зашифрованные ответы были раскрыты сегодня, 14 февраля, — и результаты оказались противоречивыми. Авторы бенчмарка, самостоятельно протестировавшие публичные модели, получили лишь два корректных доказательства из десяти — для задач №9 и №10. При этом главный ученый OpenAI Якуб Пахоцки заявил, что внутренняя модель компании с высокой вероятностью решила шесть задач.
Разрыв между "2 из 10" и "6 из 10" объясняется несколькими факторами. OpenAI использовала еще не выпущенную модель, которую тестировали целую неделю при "минимальном человеческом контроле" и с "экспертной обратной связью" от математиков. Однако правила First Proof прямо запрещают человеческие математические подсказки. "Если в процессе участвуют люди, как оценить, где заканчивается человек и начинается ИИ?" — задается вопросом одна из авторов бенчмарка, профессор Гарварда Лорен Уильямс. Математики уже указали на возможные дыры как минимум в одном из шести решений OpenAI.
Задачи First Proof — это так называемые леммы: вспомогательные теоремы, которые возникают в ходе реальных исследований. Их могли бы поручить сильному аспиранту, но для решения требуется не просто комбинирование известных техник, а определенная оригинальность мышления. Задачи охватывают девять разных областей — от алгебраической комбинаторики до стохастического анализа. Ответы никогда не публиковались в интернете, что исключает утечку в обучающие
Читать на habr.com