Почему традиционные тесты не отражают реальный потенциал ИИ
Интеллект проявляется повсеместно, но его измерение кажется субъективным. В лучшем случае мы приблизительно оцениваем его с помощью тестов и контрольных заданий. Вспомните вступительные экзамены в колледж: каждый год бесчисленное количество студентов записываются на них, заучивают советы по подготовке к экзаменам и иногда получают идеальные баллы. Означает ли одно число, например 100%, что у тех, кто его получил, одинаковый уровень интеллекта — или что они каким-то образом максимально раскрыли свой интеллект? Конечно, нет. Тесты — это приблизительные, а не точные измерения реальных возможностей кого-либо или чего-либо.
Сообщество генеративного ИИ уже давно использует такие тесты, как MMLU (Massive Multitask Language Understanding), для оценки возможностей моделей с помощью вопросов с несколькими вариантами ответов в разных академических дисциплинах. Этот формат позволяет проводить простые сравнения, но не позволяет в полной мере оценить интеллектуальные возможности.
Например, и Claude 3.5 Sonnet, и GPT-4.5 набирают одинаковое количество баллов в этом тесте. На бумаге это говорит об их схожих возможностях. Однако люди, работающие с этими моделями, знают, что в реальных условиях они ведут себя по-разному.
Вслед за выпуском нового бенчмарка ARC-AGI — теста, предназначенного для продвижения моделей к общему мышлению и творческому решению проблем, возобновились дебаты о том, что значит измерять «интеллект» в ИИ. Хотя еще не все протестировали бенчмарк ARC-AGI, отрасль приветствует это и другие усилия по развитию фреймворков тестирования. У каждого бенчмарка есть свои достоинства, и ARC-AGI — многообещающий шаг в этом более широком обсуждении.
Ещё одним заметным недавним достижением в области оценки ИИ является «Последний экзамен
Читать на habr.com

