Об этом же в других СМИ

habr.com / 1 год назад

Llama 4 Maverick и Scout: результаты тестирования моделей Meta*

gagadget.com / 1 год назад

Звуки Minecraft попадают в Национальный реестр записей США - это вторая игра в истории, которая достигла этого

gagadget.com / 1 год назад

Курица в кинотеатре: фанаты фильма Minecraft переходят черту, устраивая неадекватные перфомансы

habr.com / 1 год назад

Роль модели DeepSeek в изменении подходов к разработке ИИ

gagadget.com / 1 год назад

Обсуждения относительно сиквела фильма Minecraft уже активно ведутся, хотя первая часть только-только вышла

Больше по теме

25.03.2025 - 06:24 / habr.com

Творческий подход к тестированию ИИ: Minecraft Benchmark

Поскольку традиционные методы тестирования ИИ оказываются неэффективными, разработчики ИИ прибегают к более творческим способам оценки возможностей генеративных моделей ИИ. Для одной группы разработчиков таким способом является Minecraft.

Веб-сайт Minecraft Benchmark (или MC-Bench) был разработан совместно с целью сравнить модели ИИ друг с другом в прямых соревнованиях по созданию творений Minecraft. Пользователи могут проголосовать за то, какая модель справилась лучше, и только после голосования они смогут увидеть, какой ИИ создал каждое творение Minecraft.

Для Ади Сингха, 12-классника, запустившего MC-Bench, ценность Minecraft заключается не столько в самой игре, сколько в том, насколько хорошо люди с ней знакомы — в конце концов, это самая продаваемая видеоигра всех времён. Даже люди, которые не играли в эту игру, всё равно могут оценить, какое блочное изображение ананаса лучше.

«Minecraft позволяет людям гораздо легче следить за прогрессом в разработке ИИ, — сказал Сингх в интервью TechCrunch. — Люди привыкли к Minecraft, привыкли к его внешнему виду и атмосфере».

В настоящее время MC-Bench насчитывает восемь человек в качестве волонтёров-разработчиков. Согласно веб-сайту MC-Bench, Anthropic, Google, OpenAI и Alibaba субсидировали использование своих продуктов для запуска бенчмарков, но в остальном эти компании не связаны с проектом.

Другие игры, такие как Pokémon Red, Street Fighter и Pictionary, использовались в качестве экспериментальных тестов для ИИ, отчасти потому, что искусство тестирования ИИ известно своей сложностью.

Исследователи часто тестируют модели ИИ с помощью стандартизированных оценок, но многие из этих тестов дают ИИ преимущество «на своей территории». Из-за того, как они обучаются, модели от природы

продукты люди общество самит google mefdayy

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Mojang запустила тестирование бесплатного графического обновления под названием Vibrant Visuals для Minecraft habr.com / 1 год назад

Действительно ли в фильме Minecraft есть отсылки на культового Херобрина? Авторы дали ответ gagadget.com / 1 год назад

Meta запустила первые две модели Llama 4: мультимодальные, быстрые и мощные — еще две на подходе itc.ua / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

13.07 / 20:51

бюджет школы интересное Митап ко Дню сисадмина: три доклада из практики

Работающие серверы, спокойный сон руководства и сохранность данных — если за это отвечаете вы, то 17 июля Школа 21 в Ярославле собирает вечер как раз для вас.

13.07 / 20:32

Samsung технологии золото общество евро Ремонт смартфонов Samsung стал дороже: компания повысила цены на запчасти

По данным издания The Chosun, стоимость материалов для ремонта смартфонов Samsung в среднем выросла на 5%. Это означает, что средний ремонт мобильного устройства теперь обходится примерно на 11 000 южнокорейских вон дороже — около 7,4 доллара, 6,5 евро, 5,5 фунта стерлингов или 705 индийских рупий.

13.07 / 19:52

люди общество лечение сон деменция Какое поведение во сне может предупреждать о деменции

Тревожный признак вероятного развития деменции можно выявить когда человек крепко спит, говорят врачи.

13.07 / 19:33

технологии интернет общество техника Пять скрытых функций роутера, о которых забывает большинство

Несколько встроенных возможностей роутера способны сделать домашнюю сеть безопаснее и стабильнее.

13.07 / 19:09

Жюльен с грибами, свининой и сливками - Журнал "ФОКУС ВНИМАНИЯ"

Жюльен — одно из тех блюд, которые давно стали классикой домашней кухни. Его ценят за насыщенный сливочный вкус, аромат грибов и аппетитную сырную корочку, под которой скрывается нежная, сочная начинка.

13.07 / 19:04

продукты общество самит ожирение иммунитет Что нужно есть вечером, чтобы меньше храпеть ночью

Простые хитрости помогут лучше выспаться и избавиться от храпа, или по крайней мере существенно его уменьшить.

13.07 / 19:00

технологии Amazon журналист интересное google Сюрприз не удался: Amazon показал все цвета Pixel 11 и раскрыл ключевые характеристики новых смартфонов Google

Продолжается череда утечек линейки новых смартфонов Google. Вскоре после того, как инсайдер Mystic Leaks опубликовал качественные рендеры складного флагмана Google Pixel 11 Pro Fold в новом серо-зеленом оттенке под названием "Pine", в сети появилось еще больше изображений.

13.07 / 18:59

технологии общество самит «64 Claude одновременно»: создатель Bun рассказал, как ИИ переписал миллион строк кода

Джарред Самнер, создатель JavaScript-рантайма Bun, опубликовал детальный разбор того, как проект переписали с языка Zig на Rust. Этот пост он обещал с 9 мая, но ожидание того стоило: впервые раскрыта методология одной из самых громких ИИ-миграций кода — с динамическими воркфлоу, пробными прогонами, состязательным ревью и десятками параллельных агентов.

13.07 / 18:48

продукты здоровье общество Здоровье и красота полезные продукты Что на самом деле безопаснее — масло или растительный маргарин

Масло и растительный маргарин похожи по вкусу, но действуют на организм по-разному. Так что же полезнее и безопаснее выбирать для всей семьи?

13.07 / 18:28

связь Samsung технологии Apple мода Google Pixel 11 первым получит 2-нм процессор для смартфонов — раньше Apple, Qualcomm и MediaTek

По данным источников, фирменный процессор Google Tensor G6, который ляжет в основу серии Pixel 11, станет первым мобильным чипом, выпускаемым по 2-нм техпроцессу TSMC.

Лента новостей

На главную страницу