FrontierScience: OpenAI выпустила бенчмарк PhD-сложности для проверки научного мышления ИИ
Компания OpenAI решила проверить, на что действительно способны её модели в сфере научного прогресса, и поделилась интересными результатами, которые сочетают в себе как теоретические тесты, так и реальную лабораторную работу.
Чтобы понять, насколько модель может рассуждать как эксперт, нужны и соответствующие задачи. Команда OpenAI выпустила новый бенчмарк под названием FrontierScience. Его цель — измерить научное мышление на уровне PhD в физике, химии и биологии.
В FrontierScience вошли сложные, написанные экспертами задачи (как олимпиадного стиля, так и более длинные исследовательские задания), призванные выявить сильные и слабые стороны моделей. Как заявляют разработчики, данный бенчмарк — шаг к более сложным и значимым тестам, которые нужны этой области.
Новейшая GPT-5.2 показала наилучший результат в этом испытании. Но что важно: сам бенчмарк выявил любопытный разрыв. Модели могут хорошо справляться со структурированными проблемами, но открытое, итеративное мышление, необходимое в реальных исследованиях, — это пока другой уровень сложности.
OpenAI пошли дальше тестов и попробовали силы модели в реальных условиях.
Они сотрудничали с биотехкомпанией Red Queen Bio, чтобы проверить, как модели могут оптимизировать лабораторные протоколы. Суть эксперимента: GPT-5.2 получал задачу, предлагал, запускал (через контролируемую среду) и итеративно улучшал эксперименты.
Фокус был на молекулярном клонировании — одном из фундаментальных инструментов биологии. И здесь результаты впечатляют: модель смогла повысить эффективность стандартного протокола в 79 раз, применяя набор методик, в числе которых — подход, основанный на использовании ферментов.
Ссылки по теме:
Анонс FrontierScience на сайте OpenAI;
Статья об ускорении биологических
Читать на habr.com
