Об этом же в других СМИ

gagadget.com / 1 год назад

Официально: Grand Theft Auto 6 изначально выйдет лишь на консолях, но порт на ПК также в планах

habr.com / 1 год назад

BI.ZONE представила исследование российского ландшафта угроз за 2024 год Threat Zone 2025

cursorinfo.co.il / 1 год назад

Большинство мужчин готовы завести отношения с кибер-подругой вместо реальной женщины – исследование

gagadget.com / 1 год назад

Исследование IIHS показало, что крупные автомобили не являются более безопасными во время аварий

habr.com / 1 год назад

Исследование: переработка батарей лучше, чем добыча первичных материалов, поскольку это сокращает выбросы на 81%

Больше по теме

23.01.2025 - 03:58 / habr.com

AI не справляется с высокоуровневыми историческими экзаменами: исследование показало лишь 46% точности

AI может превосходно справляться с определёнными задачами, такими как программирование или создание подкастов. Однако ему сложно сдать экзамен по истории на высоком уровне, как показало новое исследование.

Команда исследователей разработала новый бенчмарк для проверки трёх ведущих моделей LLM — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — на исторических вопросах. Этот бенчмарк, названный Hist-LLM, оценивает правильность ответов в соответствии с Seshat Global History Databank, обширной базой данных исторических знаний, названной в честь древнеегипетской богини мудрости.

Результаты, представленные в прошлом месяце на престижной конференции по AI NeurIPS, оказались разочаровывающими, согласно исследователям, связанным с Complexity Science Hub (CSH), исследовательским институтом в Австрии. Лучшая из моделей, GPT-4 Turbo, достигла только около 46% точности — это немного выше случайного угадывания.

«Основной вывод этого исследования заключается в том, что большие языковые модели, хотя и впечатляющие, всё ещё не обладают глубиной понимания, необходимой для продвинутого изучения истории. Они отлично справляются с базовыми фактами, но когда речь заходит о более тонких, на уровне докторантуры исторических исследованиях, им пока не хватает возможностей», — сказала Мария дель Рио-Чанона, один из соавторов статьи и доцент компьютерных наук в Университетском колледже Лондона.

Исследователи поделились примерами исторических вопросов, на которые модели больших языков дали неправильные ответы. Например, у GPT-4 Turbo спросили, использовалась ли броня в определённый период в древнем Египте. Модель ответила утвердительно, хотя технология появилась в Египте позже аж на 1500 лет.

Почему модели больших языков плохо отвечают на технические

технологии люди конференция история google gemini dilnaz04 Австрия Египет Лондон

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Исследование: почти каждый десятый человек использует один и тот же четырёхзначный PIN-код habr.com / 1 год назад

Исследование: подростки в США утратили доверие к крупным технологическим компаниям habr.com / 1 год назад

Будущее ИТ-рынка: исследование МТС habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

21.07 / 23:24

люди алкоголь общество самит мозг 5 привычек людей, которые не умеют расслабляться без алкоголя

Ловушка дофамина: что на самом деле происходит с мозгом, когда вы глушите усталость алкоголем.

21.07 / 23:24

продукты общество человек врачи сон Продукты, которые могут испортить сон, назвали врачи

Даже полезные на первый взгляд продукты, съеденные вечером, могут нарушить сон, вызвать ночные пробуждения и ухудшить самочувствие.

21.07 / 22:06

люди ученые наука история общество Снимки на орбите: как прошел первый рентген человека в космосе

Главным неудобством в невесомости стало правильное позиционирование тела. Фиксировать человека без гравитации оказалось затруднительно.

21.07 / 21:53

технологии Apple история самит журналист Apple готовит крупнейший iPhone в истории: юбилейная модель может получить почти 7-дюймовый экран

О новой разработке сообщил известный китайский инсайдер Digital Chat Station. Пока речь идет лишь о внутреннем прототипе, поэтому окончательные характеристики устройства могут измениться до официальной презентации.

21.07 / 20:35

технологии Nvidia общество Обновление Nvidia App позволит некоторым игрокам записывать игровой процесс со скоростью 240 кадров в секунду

Nvidia выпустила версию 11.0.8 приложения Nvidia App. Обновление добавляет возможность записи видео через ShadowPlay с частотой 240 кадров в секунду, новые опции отображения в панели управления, а также поддержку функций DLSS Override и «Оптимальные настройки» (Optimal Settings) для большого списка игр.

21.07 / 20:35

технологии общество предприятия жертва стартап Уязвимость в Zoom для Windows 11 позволяет хакерам удалённо захватить учётную запись жертвы

Zoom выпустила экстренное обновление безопасности после раскрытия информации о критической уязвимости в своих приложениях для Windows. Хотя компания не предоставила технических подробностей об этой ошибке, она подтвердила, что успешная её эксплуатация может позволить неавторизованному злоумышленнику захватить контроль над учётной записью через интернет.

21.07 / 20:05

технологии люди Apple журналист Нет денег на iPhone или Mac? — Apple даст их в лизинг: Марк Гурман сообщил о скором запуске платформы Apple Upgrade

Для многих людей принципиально важно обладать новеньким iPhone или MacBook, но с каждым годом это становится все дороже. Вскоре после того, как Apple подняла цены на многие свои гаджеты и намекнула на дальнейший рост, компания готовится предоставить покупателям новый способ приобретения своих товаров.

21.07 / 19:57

продукты продукты питания общество отдых отпуск Опасный шведский стол – от чего лучше отказаться утром

Отдых по системе «все включено» манит изобилием блюд. Однако диетолог предупреждает об опасности некоторых утренних продуктов.

21.07 / 19:57

история Мусульмане tiktok Вышла замуж после одной встречи и едет в Афганистан – история из сети

Блогерша активно делится планами переезда в Кабул в социальной сети. Подписчики умоляют ее отказаться от опасной и безумной затеи.

21.07 / 19:14

продукты Apple общество Apple попросила бывших сотрудников из OpenAI сохранять потенциально важные документы и сообщения

Apple направила юридические уведомления с требованием сохранить документы и переписку десяткам своих бывших сотрудников, перешедших в OpenAI. Эти меры принимаются в рамках продолжающегося судебного разбирательства, касающегося незаконного использования коммерческой тайны.

Лента новостей

На главную страницу