Об этом же в других СМИ

habr.com / 7 месяцев назад

GPT-5 подсказал новую идею в квантовой теории поля — физик довел ее до публикации в престижном издании

habr.com / 7 месяцев назад

GPT-5.2 на подходе? OpenAI начала тестировать новую модель на Design Arena

habr.com / 7 месяцев назад

Компания OpenAGI выпустила новый ИИ Lux, который автономно управляет компьютером

habr.com / 7 месяцев назад

ChatGPT может получить новую модель на следующей неделе — она «будет лучше Gemini 3 Pro»

habr.com / 7 месяцев назад

После GPT-4o OpenAI не выпустила ни одной по-настоящему новой модели ИИ — SemiAnalysis

Больше по теме

20.11.2025 - 07:46 / habr.com

В новом бенчмарке на галлюцинации лишь три ИИ чаще отвечают правильно, чем ошибаются

Artificial Analysis представила новый бенчмарк AA-Omniscience, который оценивает уровень галлюцинаций не только по количеству правильных ответов, но и по умению моделей говорить "не знаю". Первые три места занимают ИИ из линейки Claude: маленькая Claude 4.5 Haiku показывает около 26% неверных ответов среди всех неудачных попыток, а Claude 4.5 Sonnet и Claude 4.1 Opus делят второе и третье место с результатом 48%. Важно добавить, что в бенчмарке моделям отключили возможность поиска в сети и задавали максимально сложные вопросы — в реальных задачах количество ошибок существенно ниже, а бенчмарк в первую очередь должен показать разработчикам ИИ слабые места в текущих схемах тренировки.

Всего авторы бенчмарка составили 6000 вопросов по 42 темам в шести областях: бизнес, право, медицина, софтверная инженерия, гуманитарные и социальные науки, а также наука, инженерия и математика. Вопросы берут из свежих и авторитетных источников и формулируют так, чтобы у них был короткий и однозначный ответ. Моделям запрещено пользоваться поиском или инструментами, так что проверяется именно то, что уже зашито в веса..

Для оценки вводится несколько метрик. Помимо привычной точности (доля правильных ответов) Artificial Analysis считает уровень галлюцинаций — долю неправильных ответов среди всех случаев, когда модель не смогла выдать полностью верный результат, — и интегральный Omniscience Index. Индекс учитывает баланс между знанием и самокритичностью: он растет, когда модель дает больше верных ответов и реже ошибается там, где могла бы честно отказаться, и падает, если она много гадает. В отличие от многих бенчмарков, отказ от ответа тут не штрафуется, — наоборот, такое поведение модели считается снижающим риск галлюцинаций.

Результаты

бизнес медицина интересное runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

ChatGPT исполнилось три года habr.com / 7 месяцев назад

Google представила бесплатный инструмент для вайб-кодинга App.new habr.com / 7 месяцев назад

ChatGPT получил новый голосовой режим habr.com / 7 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

27.07 / 15:02

животные семья психология кошка интересное Не все так мило: почему коты вылизывают друг друга

Долгое время взаимное вылизывание у кошек считалось исключительно проявлением крепкой дружбы, заботы и доверия между животными.

27.07 / 14:49

технологии Xiaomi Qualcomm планшеты мода и стиль Redmi Note 17: цены в Европе и аккумуляторы, которые заменят вам павербанк

Xiaomi решила, что цифра 16 — это слишком скучно или просто несчастливо, поэтому компания элегантно перепрыгнула через целое поколение. Встречайте серию Redmi Note 17, которая уже успела наделать шума в Китае своими «ядерными» аккумуляторами, а теперь готовится покорять европейские кошельки. Издание Ytechb раскрыло планы бренда относительно глобального рынка, и, честно говоря, ценники заставляют задуматься: не проще ли купить обычный павербанк и привязать его скотчем к старому смартфону?

27.07 / 14:44

технологии «Яндекс» разработал ИИ-хостес — виртуального агента для приёма входящих звонков и бронирований

«Яндекс» создал ИИ-хостес — виртуального голосового агента для обработки входящих звонков и бронирований. Сервис позволяет записаться на услугу или забронировать столик по телефону, в том числе если сотрудники заняты или заведение не работает.

27.07 / 14:39

экономика капитал инвестор google крипто Американские инвесторы снова заводят стейблкоины на биржи — CryptoQuant

Чистый приток USDC на криптовалютные биржи снова стал положительным после более чем двух месяцев оттока. По мнению аналитиков CryptoQuant, это может свидетельствовать о возвращении американского капитала на рынок и постепенном улучшении настроений инвесторов. В то же время эксперты отметили, что хотя активность депозитов стейблкоинов на Binance остается повышенной, говорить о новой волне массового притока ликвидности пока рано. Чистый приток USDC снова стал положительным По данным CryptoQuant, после перехода к чистому оттоку 11 мая USDC покидал биржи более двух месяцев. Недавно этот показатель вернулся к положительным значениям. Аналитики пояснили, что чистый приток USDC свидетельствует о поступлении средств американских и

27.07 / 14:39

экономика самит капитал инвестор google Binance: поколение Z возглавило новую волну инвестирования через TradFi-продукты платформы

Представители поколения Z все активнее выходят на традиционные финансовые рынки, а Binance становится одной из ключевых площадок для таких инвестиций. Об этом Incrypted сообщили в компании со ссылкой на исследование. Согласно отчету, молодые инвесторы начинают формировать капитал значительно раньше предыдущих поколений, демонстрируют более дисциплинированный подход к торговле и обеспечивают одну из самых быстрых динамик роста TradFi-направления Binance. Поколение Z начинает инвестировать раньше предшественников По данным Binance, около 30% представителей поколения Z начали инвестировать еще во время обучения в университете или в начале взрослой жизни. Для сравнени

27.07 / 14:26

технологии закон электромобиль мода и стиль Bentley Torcal: хрустальные алмазы и немецкие гены первого электромобиля бренда

Британская марка Bentley наконец выходит на путь полной электрификации. Их первый электромобиль, который получил название Torcal, готовится к официальному дебюту 23 сентября 2026 года в Лондоне. Судя по первым тизерам и официальным заявлениям, компания не собирается жертвовать пафосом ради экологии: нас ждёт смесь традиционной британской роскоши с технологиями, заимствованными у немецких родственников по концерну Volkswagen.

27.07 / 14:26

АЭС история экспедиция шутеры трейлеры Экспедиция на Чернобыльскую АЭС начнется в конце августа: аддон Cost of Hope для STALKER 2 получил дату релиза и новый тизер

Украинская студия GSC Game World назвала дату релиза сюжетного расширения “Цена надежды” (Cost of Hope) для шутера S.T.A.L.K.E.R. 2: Heart of Chornobyl.

27.07 / 14:24

люди промышленность кофе возраст напитки Три чашки в день: какой именно кофе продлевает жизнь

Новое исследование показало влияние разных видов кофе на организм. Ученые сопоставили кофейные привычки с изменениями в ДНК людей.

27.07 / 14:16

общество политика правительство Минобрнауки РФ предложило создать цифровую государственную платформу «Университеты»

Минобрнауки России вынесло на общественное обсуждение проект постановления правительства РФ о проведении эксперимента по созданию, апробации и внедрению федеральной государственной информационной системы (ФГИС) «Цифровая платформа „Университеты“». Эксперимент планируют провести с 1 сентября 2026 года по 31 декабря 2028 года.

27.07 / 14:16

Samsung технологии Apple история google Google обновила инструмент миграции на Android 17: с iPhone можно перенести аккаунт Google, пароли, Wi‑Fi и даже eSIM

Google расширила возможности инструмента переноса данных Android Switch в версии для Android 17. Теперь во время первоначальной настройки нового смартфона пользователи могут перенести не только фотографии, контакты и сообщения, но и учётную запись Google, сохранённые пароли, ключи доступа, данные Wi‑Fi и eSIM.

Лента новостей

На главную страницу