OpenAI тихо профинансировала независимый математический бенчмарк перед установлением рекорда с o3
Участие OpenAI в финансировании FrontierMath, ведущего AI-бенчмарка по математике, стало известно только тогда, когда компания объявила о рекордных показателях на этом тесте. Теперь разработчик бенчмарка, Epoch AI, признает, что следовало быть более прозрачными относительно их отношений.
FrontierMath, представленный в ноябре 2024 года, тестирует, насколько хорошо AI-системы могут справляться со сложными математическими задачами, требующими продвинутого рассуждения и навыков решения проблем — именно такие задачи обычно ставят в тупик даже самые продвинутые AI-системы. Проблемы для бенчмарка были созданы командой из более чем 60 ведущих математиков.
Связь между OpenAI и FrontierMath появилась 20 декабря, в тот же день, когда OpenAI представила свою новую модель o3. Система достигла беспрецедентного уровня успешности в 25,2 процента на сложных математических и логических задачах бенчмарка — это огромный скачок по сравнению с предыдущими моделями, которые не могли решить более двух процентов вопросов.
Epoch AI, разработавшая бенчмарк, подписала соглашение, запрещающее им раскрывать финансовую поддержку OpenAI до объявления о модели o3. Они признали связь в сноске после пятого обновления своей исследовательской работы, просто указав: "Мы с благодарностью признаем поддержку OpenAI в создании этого бенчмарка."
Согласно посту на LessWrong, более 60 математиков, участвовавших в создании задач для бенчмарка, не знали о вовлечении OpenAI — даже после объявления о модели o3. Хотя эти эксперты подписали соглашения о неразглашении, соглашения касались только сохранения конфиденциальности самих задач. Большинство считали, что их работа останется частной и будет использоваться исключительно Epoch AI, согласно посту.
Тамай Безироглу из Epoch
Читать на habr.com