Об этом же в других СМИ

habr.com / 1 год назад

Новая небольшая модель искусственного интеллекта Ai2 превосходит аналогичные по размеру модели от Google и Meta*

habr.com / 1 год назад

Microsoft бросает вызов OpenAI с новыми моделями AI Phi-4 с открытым исходным кодом

habr.com / 1 год назад

Meta* сообщает, что ее модели искусственного интеллекта Llama были загружены 1,2 млрд раз

habr.com / 1 год назад

Alibaba представляет Qwen3, семейство «гибридных» моделей рассуждений AI

habr.com / 1 год назад

Выпущенная модель OpenAI o3 значительно слабее предварительной версии в тестах на рассуждение

Больше по теме

22.04.2025 - 13:52 / habr.com

Новые модели рассуждений AI от OpenAI галлюцинируют больше

Недавно выпущенные OpenAI модели искусственного интеллекта o3 и o4-mini являются передовыми во многих отношениях. Однако новые модели все еще галлюцинируют или выдумывают — на самом деле, они галлюцинируют больше, чем некоторые старые модели OpenAI.

Галлюцинации оказались одной из самых больших и сложных проблем для решения в области AI, влияя даже на самые эффективные сегодняшние системы. Исторически каждая новая модель немного улучшалась в отделе галлюцинаций, галлюцинируя меньше, чем ее предшественница. Но, похоже, это не относится к o3 и o4-mini.

Согласно внутренним тестам OpenAI, o3 и o4-mini, которые являются так называемыми моделями рассуждений, галлюцинируют чаще, чем предыдущие модели рассуждений компании — o1, o1-mini и o3-mini, — а также традиционные «нерассуждающие» модели OpenAI, такие как GPT-4o.

Но, пожалуй, еще большее беспокойство вызывает тот факт, что создатель ChatGPT на самом деле не знает, почему это происходит. В своем техническом отчете для o3 и o4-mini OpenAI пишет, что «необходимы дополнительные исследования», чтобы понять, почему галлюцинации ухудшаются по мере масштабирования моделей рассуждений. O3 и o4-mini работают лучше в некоторых областях, включая задачи, связанные с кодированием и математикой. Но поскольку они «делают больше заявлений в целом», они часто делают «как более точные заявления, так и более неточные/галлюцинаторные заявления», согласно отчету.

OpenAI обнаружила, что o3 галлюцинировал в ответ на 33% вопросов в PersonQA, внутреннем тесте компании для измерения точности знаний модели о людях. Это примерно вдвое превышает частоту галлюцинаций предыдущих моделей рассуждений OpenAI, o1 и o3-mini, которые набрали 16% и 14,8% соответственно. O4-mini показал себя еще хуже в PersonQA —

люди самит профессор интересное стартап dilnaz04

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Предстоящая открытая модель OpenAI получит доступ к облачным возможностям habr.com / 1 год назад

Anthropic запускает новую программу по изучению «модели благосостояния» AI habr.com / 1 год назад

OpenAI добавляет модель изображения ChatGPT «GPT-Image-1» в API для разработчиков habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

24.07 / 23:24

продукты здоровье самит человек мозг Память с возрастом ухудшается — какие продукты могут ее поддержать

С возрастом мозгу требуется особенно внимательное отношение к рациону, поскольку питание напрямую связано с состоянием когнитивных функций.

24.07 / 21:54

технологии происшествия общество самит кибератаки Исследование показало, насколько Windows 10 уступает Windows 11 по безопасности: разница оказалась почти трехкратной

Согласно результатам исследования, на одном ПК с Windows 10 в среднем обнаруживается 1903 активные уязвимости. Для компьютеров с Windows 11 этот показатель составляет 652 уязвимости. Таким образом, разница достигает почти трехкратного значения, что делает более новую операционную систему значительно безопаснее с точки зрения защиты от современных киберугроз.

24.07 / 20:48

технологии общество самит google Google разрешила входить в аккаунт с помощью селфи-видео: новая функция может заменить пароль в экстренных случаях

Новая система работает на основе предварительно записанного селфи-видео. Во время первоначальной настройки пользователю необходимо посмотреть в камеру смартфона и выполнить несколько простых движений головой по подсказкам на экране. Это позволяет системе зафиксировать лицо с разных ракурсов и создать защищенный биометрический шаблон для последующей проверки личности.

24.07 / 20:03

медицина здоровье история общество прогноз В какой стране женщины будут жить дольше всех в мире

Благодаря развитому здравоохранению и здоровому образу жизни южнокорейские женщины имеют все шансы установить мировой рекорд долголетия.

24.07 / 20:03

люди дети общество психология психика Как распознать нарцисса — 5 вещей, от которых он получает удовольствие

Психологи рассказали, от чего эгоистичные люди получают настоящее удовольствие и почему они так себя ведут.

24.07 / 19:15

технологии Apple общество курс планшеты WhatsApp получил сразу четыре полезных обновления: приложение стало удобнее на iPad, в автомобиле и при работе с PDF

Все нововведения уже начали поэтапно становиться доступными пользователям по всему миру. Как обычно, распространение происходит постепенно, поэтому некоторые функции могут появиться не сразу после установки последней версии приложения.

24.07 / 19:06

бизнес связь общество В России число подключений к публичному WiFi выросло в 3,5 раза за полгода

В России продолжает расти популярность WiFi в общественных местах на фоне проблем с мобильным интернетом. В первом полугодии 2026 года по сравнению с первым полугодием 2025-го количество подключений в публичных городских интернет-сетях увеличилось в 3,5 раза, до 4,1 млрд сессий. К такому выводу пришли аналитики оператора публичного WiFi Hot-WiFi, проанализировав динамику подключений пользователей в центральных районах Москвы. Тенденцию подтвердили крупные провайдеры: «Ростелеком», «Билайн» и «Транстелеком».

24.07 / 19:02

люди недвижимость здоровье семья tiktok «Отрыжка дома»: простая привычка для свежего воздуха в квартире

Эксперты рекомендуют открывать окна на 10–15 минут каждый день для борьбы с аллергенами и плесенью.

24.07 / 18:34

бизнес люди экономика общество самит Как строится первый в мире небоскреб высотой более километра

В Саудовской Аравии активно продолжается строительство первого в мире километрового небоскреба Jeddah Tower, который уже достиг 106 этажа.

24.07 / 18:10

продукты экономика недвижимость общество техника 11 привычек, которые избавят от генеральной уборки

Автор делится простыми ежедневными привычками, которые помогают держать дом в чистоте и откладывать генеральную уборку без лишнего стресса и затрат времени.

Лента новостей

На главную страницу