Об этом же в других СМИ

habr.com / 1 год назад

Meta тестирует ИИ-функцию для генерации комментариев в Instagram

habr.com / 1 год назад

Творческий подход к тестированию ИИ: Minecraft Benchmark

habr.com / 1 год назад

GPT-4.5 больше не является самой дорогой моделью ИИ

habr.com / 1 год назад

AI QA Copilot: новый помощник для тестирования игр от Razer

habr.com / 1 год назад

Как NVIDIA создает «операционную систему» для физического ИИ

Больше по теме

07.03.2025 - 11:53 / habr.com

Тест BIG-Bench Extra Hard: как он выявляет недостатки в больших языковых моделях

В 2021 году был создан BIG-Bench — универсальный инструмент для тестирования больших языковых моделей. Однако с развитием технологий современные модели стали обеспечивать точность более 90%, и BIG-Bench достиг своего предела. В ответ на это Google DeepMind разработала тест BIG-Bench Extra Hard (BBEH), который позволяет выявлять существенные недостатки даже в самых передовых моделях ИИ.

BBEH — это усовершенствованная версия BIG-Bench Hard (BBH). В BBEH каждое из 23 заданий, которые были в BBH, стало сложнее. Новые задания требуют от участников более широкого спектра логических навыков. Они также в среднем в шесть раз длиннее, чем задания BBH. Повышенная сложность заданий отражается в ответах моделей ИИ. Они обычно в семь раз длиннее, чем ответы BBH.

В новом тесте предстоит продемонстрировать умение мыслить логически, в том числе способность анализировать и делать выводы в условиях сложных логических связей, осваивать новые идеи, отделять важную информацию от второстепенной и находить ошибки в логических цепочках.

Два примера показывают, насколько непрост этот тест. В задании на пространственное мышление агент перемещается по геометрической структуре и наблюдает за объектами в разных точках. Модели должны отслеживать положение объектов и делать выводы об их взаимосвязях.

В задании «Свойства предметов» предлагается набор предметов с разнообразными параметрами: цветом, габаритами, происхождением, ароматом и материалом. Эти параметры могут меняться. Модели должны внимательно следить за изменениями характеристик всех предметов, в том числе в сложных ситуациях, например, когда теряется предмет с определёнными свойствами.

Google DeepMind протестировал как универсальные модели, такие как Gemini 2.0 Flash и GPT-4o, так и

технологии общество семья самит google gemini mefdayy

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Google анонсирует выпуск моделей ИИ для ускорения разработки лекарств habr.com / 1 год назад

Mistral запускает улучшенную маломерную мультимодальную модель Small 3.1 habr.com / 1 год назад

Исследование языковых моделей: уровень внедрения и использования среди взрослого населения США habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 03:26

происшествия ученые автомобиль мода и стиль Как быстро выехать из пробки на авто - ответ ученых удивит

Исследователи назвали эффективный способ, благодаря которому можно быстро покинуть пробку без агрессивного вождения автомобиля.

16.07 / 03:26

люди здоровье общество банк болезнь Какое количество кофе может повысить риск сердечного приступа

В больших количествах кофеин создает нагрузку на сердце и может навредить сосудам.

16.07 / 03:20

Facebook технологии Apple общество reddit Владельцы iPhone пожаловались на проблемы с автономностью и перегревом устройств после установки обновления iOS 26.5.2

Владельцы iPhone столкнулись с быстрой разрядкой аккумулятора и перегревом устройств после установки обновления iOS 26.5.2. Apple выпустила 29 июня 2026 года апдейт, который исправил более 25 уязвимостей, в том числе в ядре и других важных областях операционной системы, связанных с открытым браузерным движком WebKit.

16.07 / 01:17

происшествия люди ученые наука общество Сколько людей на самом деле может прокормить Земля – ученые

Эксперты заявили о начале опасной фазы для всего человечества. Ресурсы планеты больше не могут покрывать нужды растущего населения Земли.

16.07 / 00:45

Apple Nvidia самит google Broadcom Apple ведет переговоры о приобретении производителей чипов для искусственного интеллекта

Apple рассматривает возможность приобретения компаний, занимающихся разработкой полупроводников для искусственного интеллекта. По данным The Information, компания уже ведет переговоры с производителями чипов и финансовыми консультантами о возможных сделках.

16.07 / 00:45

Facebook Samsung технологии LinkedIn Amazon Amazon Music станет стандартным приложением на новых устройствах Samsung Galaxy: что изменится для пользователей

Компания Samsung объявила о расширении списка приложений, которые будут предварительно установлены на смартфонах и планшетах Galaxy. В скором времени к нему присоединится сервис Amazon Music, который автоматически появится на новых устройствах производителя.

16.07 / 00:42

связь медицина люди здоровье общество Все начинается со стула: одна распространенная привычка приближает рак

Новое масштабное исследование с участием почти 100 тысяч человек подтвердило связь между непрерывным сидячим образом жизни и риском развития рака.

15.07 / 23:46

технологии смартфон самит гаджет Почему смартфон заряжается медленно: дело может быть не в кабеле

При покупке кабеля для смартфона специалисты советуют учитывать не только его длину, но и качество изготовления.

15.07 / 22:13

экономика общество семья самит психология Простая вещь, которую мужчины не могут понять о зрелых женщинах

Писательница Ким Петерсен объяснила, почему кризис среднего возраста у женщин — это не капризы или менопауза, а глубокая перестройка всей жизни.

15.07 / 22:10

Samsung технологии здоровье история общество В сеть утекли официальные изображения всех новинок Samsung перед Galaxy Unpacked

Если информация подтвердится, уже 22 июля на мероприятии в Лондоне компания представит сразу несколько флагманских устройств нового поколения: Galaxy Z Fold8, Galaxy Z Fold8 Ultra, Galaxy Z Flip8, Galaxy Watch9 и Galaxy Watch Ultra 2. На данный момент речь идет об утечке, однако опубликованные изображения выглядят как официальные маркетинговые рендеры и совпадают с более ранними инсайдерскими данными.

Лента новостей

На главную страницу