Об этом же в других СМИ

ilenta.com / 1 месяц назад

Серия Samsung Galaxy S26 стартовала сильнее Galaxy S25: продажи выросли на 15%

cursorinfo.co.il / 1 месяц назад

Скрытая угроза в небе – антирейтинг самых антисанитарных зон самолета

incrypted.com / 1 месяц назад

Токенизированные фонды Fidelity и BlackRock получили наивысший рейтинг Moody’s

cursorinfo.co.il / 1 месяц назад

Продукты, которые приводят к сильной потливости, назвали эксперты

gagadget.com / 1 месяц назад

Тактическая игра Star Wars Zero Company близка к релизу: она активно получает возрастные рейтинги

Больше по теме

27.04.2026 - 07:29 / habr.com

GPT-5.5 возглавила рейтинг сильнейших ИИ с тревожной оговоркой

Artificial Analysis поставила GPT-5.5 на первое место в своем Intelligence Index. По оценке компании, новая модель OpenAI обошла ближайших конкурентов на 3 пункта и прервала ничью между OpenAI, Anthropic и Google. Artificial Analysis получила предварительный доступ к модели и протестировала все пять уровней рассуждения: xhigh, high, medium, low и non-reasoning.

Но в результатах есть важная оговорка. На AA-Omniscience, бенчмарке на знание фактов и склонность к галлюцинациям, GPT-5.5 xhigh показала лучший результат по точности — 57% правильных ответов на предельно сложные вопросы. Однако hallucination rate у нее составил тревожные 86% — против 36% у Claude Opus 4.7 max и 50% у Gemini 3.1 Pro Preview.

Это не значит, что GPT-5.5 галлюцинирует в 86% всех ответов. В методологии Artificial Analysis hallucination rate — это доля неправильных ответов среди всех случаев, где модель не дала полностью правильный ответ: ошиблась, ответила частично или отказалась. Проще говоря, метрика показывает, как часто модель выбирает уверенный неверный ответ вместо того, чтобы признать незнание.

AA-Omniscience устроен именно вокруг этой проблемы. В тесте 6000 вопросов по 42 темам из шести областей: бизнес, гуманитарные и социальные науки, здоровье, право, программная инженерия, наука, техника и математика. Модели отвечают без поиска и внешних инструментов, а оценка поощряет правильные ответы, штрафует неверные и не наказывает за отказ, если модель не уверена.

Сама OpenAI пишет в System Card компания пишет, что GPT-5.5 стала фактически точнее GPT-5.4 на выборке разговоров ChatGPT, которые пользователи ранее отмечали как содержащие фактические ошибки: отдельные утверждения были на 23% чаще корректными, а ответы на 3% реже содержали фактическую ошибку.

бизнес здоровье интересное google Lowe's gemini runawayllm Калибр

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Пять эффективных способов справиться с сильным потоотделением cursorinfo.co.il / 2 месяца назад

Геймерский смартфон iQOO 15 Ultra возглавил топ-10 самых мощных Android-флагманов апреля по версии AnTuTu gagadget.com / 2 месяца назад

От сильной жары к дождям — резкая смена погоды ожидает израильтян cursorinfo.co.il / 2 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

10.07 / 12:39

технологии смартфон гаджет Что делать, если смартфон стал медленно работать

Многие пользователи выбирают не тот способ, пытаясь вернуть смартфону прежнюю скорость работы.

10.07 / 12:39

происшествия ученые животные общество природа Дикие животные опасаются лишь одного хищника - ученые

Исследователи определили, что дикие животные боятся самого опасного существа на планете.

10.07 / 12:15

продукты здоровье общество собака анемия Какие продукты категорически нельзя давать собакам, рассказал эксперт

Здоровье вашего любимца может ухудшится из-за яиц, картофеля и даже некоторых сортов мяса, говорят ветеринары. И этот список далеко не полный.

10.07 / 12:15

продукты здоровье общество полезные продукты питание ТОП продуктов, способных предотвратить образование тромбов

Как нужно питаться, чтобы снизить риски тромбоза или существенно замедлить образование тромбов, рассказал врач.

10.07 / 12:15

люди общество психология Психология и отношения Как нужно реагировать на критику - советы психолога

Почему людям не просто принять критику и как это сделать достойно, рассказали психологи.

10.07 / 12:15

здоровье деньги tiktok Три простые уловки, которые "омолодят" вас мгновенно

Эксперты подсказали, как выглядеть моложе и при этом не тратить большие деньги и не менять образ жизни.

10.07 / 12:15

продукты происшествия здоровье продукты питания еда Скрытая угроза в вашем холодильнике – какой соус опаснее для сердца

Почему горчица — это безопасная альтернатива кетчупу, переполненному вредным сахаром?

10.07 / 12:14

наука золото геология археология В Японском море нашли источник с «самой высокой концентрацией золота в мире»

В подводном вулканическом кратере у юго-восточного побережья Японии исследователи обнаружили «черных курильщиков» — гидротермальные источники океанических хребтов. В этих природных отложениях активно образовываются огромные запасы золота — по оценкам ученых, найденные источники «обладают самой высокой концентрацией золота в мире».

10.07 / 12:12

МТС история общество YouTube самит Отчетность говорит: Rutube — гигант! Пока рядом не поставить YouTube

Свежая статистика по российским видеосервисам выглядит бодро, и хорошо заходит с утра: «Коммерсантъ» ознакомился с данными ГК «Родная речь» о дневных охватах видеосервисов за январь‑май 2026 года: YouTube в России вырос на 4%, до 22,4 млн человек в день; «Яндекс Видео» вырос на 7,5%, до 6,1 млн; Rutube, по тем же данным, снизился на 13,6%, до 7,2 млн. VK отдельно сообщил, что средняя дневная активная аудитория «VK Видео» за первое полугодие 2026 года составила 42 млн человек без учёта эмбедированных просмотров. «Газпром‑медиа» с оценкой Rutube не согласился и сослался на Mediascope: по его версии, средняя дневная активная аудитория Rutube за первое полугодие превысила 20 млн пользователей.

10.07 / 12:12

история самит интересное google Рейтинг языков программирования TIOBE за июнь 2026 года: Rust десятый, за 25 лет проекта C, C++ и Java остаются в топе

Авторы индекса TIOBE опубликовали июньский рейтинг популярных языков программирования. Несколько позиций рейтинга в топ-10 претерпели изменения с начала 2026 года (1. Python. 2. C. 3. C++ (на 3 место с 4 места). 4. Java (на 4 место с 3 места). 5. C#. 6. JavaScript. 7. Visual Basic. 8. SQL (на 8 место с 9 места). 9. R (на 9 место с 8 места). 10. Rust (на 10 место с 15 места).

Лента новостей

На главную страницу