GPT-5.5 возглавила рейтинг сильнейших ИИ с тревожной оговоркой
Artificial Analysis поставила GPT-5.5 на первое место в своем Intelligence Index. По оценке компании, новая модель OpenAI обошла ближайших конкурентов на 3 пункта и прервала ничью между OpenAI, Anthropic и Google. Artificial Analysis получила предварительный доступ к модели и протестировала все пять уровней рассуждения: xhigh, high, medium, low и non-reasoning.
Но в результатах есть важная оговорка. На AA-Omniscience, бенчмарке на знание фактов и склонность к галлюцинациям, GPT-5.5 xhigh показала лучший результат по точности — 57% правильных ответов на предельно сложные вопросы. Однако hallucination rate у нее составил тревожные 86% — против 36% у Claude Opus 4.7 max и 50% у Gemini 3.1 Pro Preview.
Это не значит, что GPT-5.5 галлюцинирует в 86% всех ответов. В методологии Artificial Analysis hallucination rate — это доля неправильных ответов среди всех случаев, где модель не дала полностью правильный ответ: ошиблась, ответила частично или отказалась. Проще говоря, метрика показывает, как часто модель выбирает уверенный неверный ответ вместо того, чтобы признать незнание.
AA-Omniscience устроен именно вокруг этой проблемы. В тесте 6000 вопросов по 42 темам из шести областей: бизнес, гуманитарные и социальные науки, здоровье, право, программная инженерия, наука, техника и математика. Модели отвечают без поиска и внешних инструментов, а оценка поощряет правильные ответы, штрафует неверные и не наказывает за отказ, если модель не уверена.
Сама OpenAI пишет в System Card компания пишет, что GPT-5.5 стала фактически точнее GPT-5.4 на выборке разговоров ChatGPT, которые пользователи ранее отмечали как содержащие фактические ошибки: отдельные утверждения были на 23% чаще корректными, а ответы на 3% реже содержали фактическую ошибку.
Читать на habr.com

