



От 5% до 28,7%: GeneBench-Pro показал, как быстро ИИ учится мыслить как учёный
OpenAI выпустила GeneBench-Pro — бенчмарк, который проверяет не способность ИИ-агента запускать готовые пайплайны, а его исследовательское чутье: умение решить, отражает ли паттерн в данных биологию или шум, какой вопрос вообще можно задать по этим данным и когда результат готов к тому, чтобы на него опереться в реальном решении. Лучшая модель компании, GPT-5.6 Sol, прошла 28,7% задач на максимальном уровне рассуждений и 31,5% в режиме Pro.
Тест состоит из 129 задач в 10 областях и 21 поддисциплине — от популяционной генетики до фармакогеномики и онкогеномики. Каждая задача синтетическая: OpenAI заранее знает всю причинно-следственную структуру и сама генерирует данные, поэтому может проверять ответ детерминированно. 82 из 129 задач прогнали через внешних экспертов — аспирантов, постдоков и профессоров, — которые оценивали реалистичность и корректность целевого ответа.
Скачок результатов впечатляет: на первой версии GeneBench лучшая на тот момент модель GPT-5 не дотягивала и до 5%. Разница видна и в качестве решений — например, в задаче на фармакогеномический ответ со временем GPT-5.5 строила обычную модель Кокса, не учитывая обратную связь между лечением и сопутствующими факторами, а GPT-5.6 Sol сама перешла на маргинальную структурную модель с обратными вероятностными весами и грамотно исключила пациентов с уже начатым лечением. При этом конкуренты сильно отстают: Claude Opus 4.8 — 16%, Gemini 3.5 Flash — 8,1%, GLM 5.2 — 4,6%, DeepSeek V4 Pro — 2,4%, Gemini 3.1 Pro — 3,1%, Grok 4.3 — 1,5%.
Но даже у лидера это меньше трети задач. Авторы бенчмарка описывают типичный сбой так: модель в процессе анализа сама замечает тревожный сигнал в данных — например, технический артефакт или нарушение контроля качества, — но не доводит
Читать на habr.com
