

Творческий подход к тестированию ИИ: Minecraft Benchmark
Поскольку традиционные методы тестирования ИИ оказываются неэффективными, разработчики ИИ прибегают к более творческим способам оценки возможностей генеративных моделей ИИ. Для одной группы разработчиков таким способом является Minecraft.
Веб-сайт Minecraft Benchmark (или MC-Bench) был разработан совместно с целью сравнить модели ИИ друг с другом в прямых соревнованиях по созданию творений Minecraft. Пользователи могут проголосовать за то, какая модель справилась лучше, и только после голосования они смогут увидеть, какой ИИ создал каждое творение Minecraft.
Для Ади Сингха, 12-классника, запустившего MC-Bench, ценность Minecraft заключается не столько в самой игре, сколько в том, насколько хорошо люди с ней знакомы — в конце концов, это самая продаваемая видеоигра всех времён. Даже люди, которые не играли в эту игру, всё равно могут оценить, какое блочное изображение ананаса лучше.
«Minecraft позволяет людям гораздо легче следить за прогрессом в разработке ИИ, — сказал Сингх в интервью TechCrunch. — Люди привыкли к Minecraft, привыкли к его внешнему виду и атмосфере».
В настоящее время MC-Bench насчитывает восемь человек в качестве волонтёров-разработчиков. Согласно веб-сайту MC-Bench, Anthropic, Google, OpenAI и Alibaba субсидировали использование своих продуктов для запуска бенчмарков, но в остальном эти компании не связаны с проектом.
Другие игры, такие как Pokémon Red, Street Fighter и Pictionary, использовались в качестве экспериментальных тестов для ИИ, отчасти потому, что искусство тестирования ИИ известно своей сложностью.
Исследователи часто тестируют модели ИИ с помощью стандартизированных оценок, но многие из этих тестов дают ИИ преимущество «на своей территории». Из-за того, как они обучаются, модели от природы
Читать на habr.com