Модели AI на «экзамене» по решению головоломок: исследование выявило неожиданные результаты
Каждое воскресенье ведущий NPR Уилл Шортц, гуру кроссвордов из The New York Times, проводит викторину для тысяч слушателей в рамках долгоиграющего сегмента под названием «Воскресная головоломка». Несмотря на то, что головоломки составлены так, чтобы их можно было решить, не слишком полагаясь на знания, они обычно сложны даже для опытных участников.
Вот почему некоторые эксперты считают, что это многообещающий способ проверить границы возможностей AI в решении задач.
В недавнем исследовании команда учёных из Колледжа Уэллсли, Оберлинского колледжа, Техасского университета в Остине, Северо-Восточного университета, Карлова университета и стартапа Cursor создала тест для AI, используя загадки из выпусков «Воскресной головоломки». Команда говорит, что их тест выявил неожиданные факты, например, что модели рассуждений — в том числе o1 от OpenAI — иногда «сдаются» и дают ответы, которые, как они знают, неверны.
«Мы хотели разработать эталонный тест с задачами, которые люди могут понять, обладая лишь общими знаниями», — рассказал TechCrunch Арджун Гуха, преподаватель компьютерных наук в Северо-Восточном университете и один из соавторов исследования.
В настоящее время индустрия AI находится в затруднительном положении, связанном с тестированием. Большинство тестов, которые обычно используются для оценки моделей AI, проверяют такие навыки, как компетентность в вопросах по математике и естественным наукам на уровне доктора наук, которые не имеют отношения к среднестатистическому пользователю. В то же время многие тесты — даже тесты, выпущенные относительно недавно — быстро приближаются к точке насыщения.
Преимущества викторины на общественном радио, такой как «Воскресная головоломка», заключаются в том, что она не требует глубоких
Читать на habr.com