Тест OpenAI PaperBench: системы ИИ не могут полноценно заменить исследователей
Новый тест OpenAI PaperBench показывает, что ИИ пока не может самостоятельно воспроизводить научные исследования, и исследователи-люди по-прежнему имеют преимущество.
Этот тест подвергает системы ИИ серьёзному испытанию: воссоздайте 20 научных работ, представленных на ICML 2024, одной из самых престижных конференций по машинному обучению. Работы охватывают широкий спектр исследований в области машинного обучения: от глубокого обучения с подкреплением до вероятностных методов и тестирования надёжности.
Чтобы точно измерить производительность, команда работала напрямую с авторами оригинальной статьи, чтобы создать обширную систему оценки. В результате было создано более 8300 конкретных контрольных точек, которые определяют, успешно ли система воспроизводит исследование.
Хотя системы ИИ могут искать в интернете общую информацию, они не могут заглянуть в исходный код авторов. Вместо этого они должны разработать собственную полную кодовую базу и создать скрипт reproduce.sh, который автоматически запускает все эксперименты. У каждой системы есть двенадцать часов на выполнение задачи в стандартных условиях тестирования.
Проверка каждой заявки представляет собой отдельную задачу. Эксперты-люди обычно тратят десятки часов на оценку одной статьи, что делает крупномасштабное тестирование непрактичным. Чтобы решить эту проблему, OpenAI разработала систему оценки на основе ИИ, которая значительно сокращает время и затраты.
Модель o3-mini, разработанная командой, соответствует человеческому суждению с точностью 83%, при этом сокращая расходы с тысяч долларов за статью до всего 66 долларов. Их более мощная модель o1 обеспечивает чуть более высокую точность — 84%, но стоит дороже — 830 долларов за статью.
Даже самые эффективные модели с
Читать на habr.com