Об этом же в других СМИ

cursorinfo.co.il / 1 неделю назад

Как быстро выехать из пробки на авто - ответ ученых удивит

habr.com / 1 неделю назад

Вышла GPT-5.6: топовый ИИ теперь даже бесплатно

habr.com / 1 неделю назад

Новая модель Meta* обходит Opus 4.8 и GPT-5.5 в агентских задачах — и стоит $1.25 за миллион токенов

habr.com / 1 неделю назад

«64 Claude одновременно»: создатель Bun рассказал, как ИИ переписал миллион строк кода

habr.com / 1 неделю назад

OpenAI забраковала ИИ-бенчмарк, который сама же продвигала: ~30% задач SWE-Bench Pro сломаны

Больше по теме

03.07.2026 - 15:03 / habr.com

От 5% до 28,7%: GeneBench-Pro показал, как быстро ИИ учится мыслить как учёный

OpenAI выпустила GeneBench-Pro — бенчмарк, который проверяет не способность ИИ-агента запускать готовые пайплайны, а его исследовательское чутье: умение решить, отражает ли паттерн в данных биологию или шум, какой вопрос вообще можно задать по этим данным и когда результат готов к тому, чтобы на него опереться в реальном решении. Лучшая модель компании, GPT-5.6 Sol, прошла 28,7% задач на максимальном уровне рассуждений и 31,5% в режиме Pro.

Тест состоит из 129 задач в 10 областях и 21 поддисциплине — от популяционной генетики до фармакогеномики и онкогеномики. Каждая задача синтетическая: OpenAI заранее знает всю причинно-следственную структуру и сама генерирует данные, поэтому может проверять ответ детерминированно. 82 из 129 задач прогнали через внешних экспертов — аспирантов, постдоков и профессоров, — которые оценивали реалистичность и корректность целевого ответа.

Скачок результатов впечатляет: на первой версии GeneBench лучшая на тот момент модель GPT-5 не дотягивала и до 5%. Разница видна и в качестве решений — например, в задаче на фармакогеномический ответ со временем GPT-5.5 строила обычную модель Кокса, не учитывая обратную связь между лечением и сопутствующими факторами, а GPT-5.6 Sol сама перешла на маргинальную структурную модель с обратными вероятностными весами и грамотно исключила пациентов с уже начатым лечением. При этом конкуренты сильно отстают: Claude Opus 4.8 — 16%, Gemini 3.5 Flash — 8,1%, GLM 5.2 — 4,6%, DeepSeek V4 Pro — 2,4%, Gemini 3.1 Pro — 3,1%, Grok 4.3 — 1,5%.

Но даже у лидера это меньше трети задач. Авторы бенчмарка описывают типичный сбой так: модель в процессе анализа сама замечает тревожный сигнал в данных — например, технический артефакт или нарушение контроля качества, — но не доводит

общество самит профессор лечение биологи кокс gemini runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

«Мхм», «ага»: новый голосовой ChatGPT ведет себя как живой собеседник habr.com / 1 неделю назад

Фотошоп больше не нужен? Представлена Seedream 5.0 Pro со слоями habr.com / 1 неделю назад

В жару отекают ноги - как быстро облегчить состояние, рассказал врач cursorinfo.co.il / 1 неделю назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

23.07 / 23:30

люди экономика общество человек Здоровье и красота Почему людям с ожирением так трудно похудеть - исследование

Ученые изучили данные 1754 человек и обнаружили необычную реакцию организма на увеличение физических нагрузок.

23.07 / 23:17

продукты Alibaba представила Qwen3.8 — 2,4-триллионную ИИ-модель и пообещала открыть ее веса

Alibaba анонсировала новую флагманскую модель Qwen3.8. Китацы заявляют, что модель содержит 2,4 трлн параметров. Обещают и выложить веса.

23.07 / 22:49

Огурцы по-корейски — хрустящая закуска с насыщенным вкусом - Журнал "ФОКУС ВНИМАНИЯ"

Огурцы по-корейски — одна из самых популярных корейских закусок, которая сочетает свежесть овощей, пикантные специи и насыщенный аромат кунжутного масла.

23.07 / 22:49

Как изменился путь клиента: сегодня вас «гуглят» раньше, чем покупают - Журнал "ФОКУС ВНИМАНИЯ"

Еще несколько лет назад путь клиента выглядел достаточно просто. Человек увидел рекламу, перешёл на сайт, посмотрел предложение, пообщался с менеджером и принял решение.

23.07 / 22:28

продукты связь технологии экспорт общество Документация Delta Design обновилась: варианты исполнений, веб-панель Identity, новые аппертуры DeltaCAM

Сегодня в пользовательской документации Eremex вышло несколько новых статей, а также провели техническое обслуживание самого сайта: поправили битые ссылки, ускорили загрузку и улучшили поиск.

23.07 / 22:28

технологии Центробанк деньги закон общество Центробанк предложил запретить подросткам регистрировать электронные кошельки без согласия родителей

Центробанк предложил перекрыть ещё один канал, через который мошенники вовлекают подростков в финансовые схемы, пишут «Известия». В рамках пакета «Антифрод 3.0» несовершеннолетним могут запретить регистрировать электронные средства платежа (ЭСП) без согласия родителей. Поправки затронут подростков в возрасте от 14 до 18 лет.

23.07 / 22:28

реклама СМИ общество самит Ozon В России зафиксировали рост доли ИИ-трафика на сайтах СМИ и электронной коммерции

Лидерами по количеству ИИ‑трафика в июне 2026 года стали сайты электронной коммерции и медиа, рассказали «Ъ» в Servicepipe. На нейросети и ботов, которые обращаются к ресурсам СМИ и e‑com, приходится по 1% от всего трафика, анализируемого компанией. За аналогичный период 2025 года у СМИ было 0,5%, у e‑com — 0,3%. При этом в период крупных распродаж доля ботов на ресурсах электронной коммерции вырастала в пике до 3%, а на новостных сайтах в дни острых информационных поводов — до 3,5%, говорят в компании.

23.07 / 22:28

связь происшествия общество спецслужбы мода и стиль Регулятор США планирует запретить компаниям продавать продукцию DJI под другими брендами

Федеральная комиссия по связи США (FCC) планирует запретить продукцию компаний, подозреваемых в продаже переименованных и модифицированных дронов и камер китайской DJI. В частности, ведомство намерено запретить ввоз и реализацию продукцию компаний Cogito, Fikaxo, Lyno Dynamics, Skyhigh Tech, Spatial Hover, SZ Knowact, WaveGo, Xtra и XAG. FCC подчёркивает, что эти товары «представляют неприемлемый риск» для национальной безопасности США.

23.07 / 21:51

продукты технологии экономика Apple история Складной iPhone столкнулся с неожиданными трудностями перед запуском: производство еще не готово полностью

Информация появилась на фоне многочисленных сообщений последних месяцев, согласно которым проект складного iPhone значительно продвинулся вперед. Однако новая публикация указывает, что до полного завершения подготовки еще остается несколько важных задач.

23.07 / 20:25

Выпуск интерфейса для упрощения настройки параметров сети NetworkManager 1.58

20 июля 2026 года состоялся релиз интерфейса для упрощения настройки параметров сети NetworkManager 1.58. Выпуск стабильной версии NetworkManager 1.50 произошёл в октябре 2024 года. Версия NetworkManager 1.52 вышла в марте 2025 года. Выпуск NetworkManager 1.54 случился в августе 2025 года. Предыдущая стабильная версия проекта вышла в феврале 2026 года.

Лента новостей

На главную страницу