Об этом же в других СМИ

gagadget.com / 1 год назад

Забытый эксперимент: как Borderlands Online могла изменить серию и почему о ней снова вспомнили в 2025 году

gagadget.com / 1 год назад

Почему игры дорожают: Шухей Йошида объясняет неизбежность новых цен на игровом рынке

habr.com / 1 год назад

OpenAI объясняет, почему ChatGPT стал слишком льстивым

gagadget.com / 1 год назад

ПК-версия Stellar Blade будет работать на Unreal Engine 4: почему это хорошая новость для геймеров

fokus-vnimaniya.com / 1 год назад

Есть или не есть: почему суп на самом деле не так полезен, как мы думали - ФОКУС ВНИМАНИЯ

Больше по теме

17.04.2025 - 12:37 / habr.com

Почему традиционные тесты не отражают реальный потенциал ИИ

Интеллект проявляется повсеместно, но его измерение кажется субъективным. В лучшем случае мы приблизительно оцениваем его с помощью тестов и контрольных заданий. Вспомните вступительные экзамены в колледж: каждый год бесчисленное количество студентов записываются на них, заучивают советы по подготовке к экзаменам и иногда получают идеальные баллы. Означает ли одно число, например 100%, что у тех, кто его получил, одинаковый уровень интеллекта — или что они каким-то образом максимально раскрыли свой интеллект? Конечно, нет. Тесты — это приблизительные, а не точные измерения реальных возможностей кого-либо или чего-либо.

Сообщество генеративного ИИ уже давно использует такие тесты, как MMLU (Massive Multitask Language Understanding), для оценки возможностей моделей с помощью вопросов с несколькими вариантами ответов в разных академических дисциплинах. Этот формат позволяет проводить простые сравнения, но не позволяет в полной мере оценить интеллектуальные возможности.

Например, и Claude 3.5 Sonnet, и GPT-4.5 набирают одинаковое количество баллов в этом тесте. На бумаге это говорит об их схожих возможностях. Однако люди, работающие с этими моделями, знают, что в реальных условиях они ведут себя по-разному.

Вслед за выпуском нового бенчмарка ARC-AGI — теста, предназначенного для продвижения моделей к общему мышлению и творческому решению проблем, возобновились дебаты о том, что значит измерять «интеллект» в ИИ. Хотя еще не все протестировали бенчмарк ARC-AGI, отрасль приветствует это и другие усилия по развитию фреймворков тестирования. У каждого бенчмарка есть свои достоинства, и ARC-AGI — многообещающий шаг в этом более широком обсуждении.

Ещё одним заметным недавним достижением в области оценки ИИ является «Последний экзамен

люди общество google mefdayy Microsoft

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Шутер Judas, автора BioShock, тихо исчез из графика релизов: почему долгожданную игру снова отложили gagadget.com / 1 год назад

Почему врачи советуют ежедневно есть яблоки - причины, о которых знают не все cursorinfo.co.il / 1 год назад

Эрик Трамп: «Криптовалюта сотрет в пыль традиционные финансовые системы» incrypted.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 17:47

люди общество отдых самит врачи Укусы комаров больше не проблема - как убрать зуд за секунды

Ученые нашли неожиданный способ, быстро снимающий зуд от укусов комаров без мазей и лекарств.

16.07 / 17:33

связь люди животные общество человек Как собаки определяют для себя "особенного" человека - ветеринары

Ветеринары объяснили, какие признаки свидетельствуют о привязанности собаки к отдельному человеку.

16.07 / 17:19

семья Sony ликвидация playstation Шоу бизнес Британские ритейлеры поддерживают геймеров в борьбе за диски: тезисы Sony разбиваются о статистику продаж

Когда Sony объявила об отказе от выпуска дисковых копий своих игр, она объяснила это тем, что предпочтения геймеров изменились и теперь им удобнее совершать покупки в цифровом формате. Это решение вызвало огромное осуждение, а утверждение, что диски никто не покупает и вовсе выглядело абсурдным.

16.07 / 17:19

технологии Все о Redmi 17 4G — бюджетном смартфоне с 4 Гб оперативки и новым световым кольцом

Незадолго до официального анонса в сети появились качественные рендеры и подробные технические характеристики нового бюджетного смартфона Redmi 17 4G, который станет преемником модели Redmi 15. Утечка раскрывает обновленный внешний вид устройства, его цветовые варианты и ключевые улучшения по сравнению с прошлым поколением.

16.07 / 17:06

экономика общество google В 1inch прокомментировали заявление Антона Букова об уходе из проекта

Команда 1inch подтвердила, что сооснователь Антон Буков больше не участвует в проекте и с декабря 2025 года он не вовлечен в деятельность связанных организаций. В 1inch заявили, что уход Букова не сказывается на работе 1inch Network и связанных организаций: протоколы, инфраструктура и все основные системы функционируют в штатном режиме. По словам представителей компании, сооснователь Сергей Кунц и действующая управленческая команда продолжают работу над проектом, а стратегия и роадмап остаются неизменными. В компании поблагодарили Буко

16.07 / 17:06

продукты люди здоровье общество вредные продукты Какие продукты вызывают отечность и портят вашу внешность

Медики рассказали, каких продуктов стоит избегать при склонности к отекам и задержке жидкости в организме.

16.07 / 16:54

люди музыка здоровье общество привычка Какие приятные привычки могут продлить жизнь на 10 лет

Ученые все чаще отмечают, что долголетие зависит не только от здорового образа жизни.

16.07 / 16:54

технологии здоровье спорт общество напитки Какой чай может зарядить организм энергией - ответ экспертов

Специалисты рассказали, почему чай иногда может быть более уместным для поддержки организма, чем кофе.

16.07 / 16:41

технологии происшествия самит расследование кибератаки Крупнейший в Японии оператор такси отключил IT-системы после кибератаки

Крупнейший в Японии оператор такси Nihon Kotsu сообщил о кибератаке против своих IT-систем, что привело к отключению этой инфраструктуры. Инцидент произошёл 11 июля 2026 года, повлияв на систему диспетчеризации такси, которая остаётся недоступной до сих пор.

16.07 / 16:17

Apple закон самит google Google откроет Android для сторонних магазинов приложений уже на следующей неделе после поражения в суде

Компания Google официально подтвердила, что с 22 июля начнет выполнять требования постоянного судебного предписания, обязывающего открыть Android для альтернативных магазинов приложений. Решение стало следствием многолетнего судебного разбирательства с Epic Games, которое завершилось не в пользу технологического гиганта.

Лента новостей

На главную страницу