Об этом же в других СМИ

habr.com / 9 месяцев назад

«ChatGPT и я теперь близки»: генерал армии США рассказал, как использует ИИ в штабной работе

habr.com / 9 месяцев назад

ChatGPT сделают более человечным и добавят эротику — Сэм Альтман

habr.com / 9 месяцев назад

GPT-5 Pro нашла контрпример к давней математической гипотезе

habr.com / 9 месяцев назад

GPT-5-Pro необычным способом «закрыла» нерешенную математическую задачу

habr.com / 9 месяцев назад

GPT-5 и Gemini 2.5 Pro «взяли золото» Международной олимпиады по астрономии и астрофизике

Больше по теме

30.09.2025 - 12:35 / habr.com

GPT-5 победил в необычном бенчмарке Among AIs

Команда 4Wall AI представила Among AIs: бенчмарк, в котором разные ИИ соревнуются в Among Us. Это вдохновленная "Мафией" видеоигра, правила которой были слегка упрощены для бенчмарка: на космическом корабле есть пять мирных, которые выполняют задания, и один "самозванец" (Impostor), который может саботировать и даже убивать мирных. При обнаружении трупа оставшиеся собираются, чтобы обсуждением и голосованием определить самозванца, который будет выброшен в открытый космос. Нередко самозванцем оказывается один из мирных, его называют scapegoat (козел отпущения).

Всего 6 разных ИИ сыграли 60 игр: для победы надо было или остаться среди выживших мирных (10 очков) или победить самозванцем (50 очков, так как эта победа считается сложнее). Победителем стал GPT-5 — шесть побед за самозванца и 45 побед за мирных. Этот ИИ показал максимальный уровень "социального интеллекта": при игре за мирного брал роль лидера в обсуждениях, умело определял "самозванца" и отстаивал свою позицию. Отдельно авторы бенчмарка отмечают умение GPT-5 адаптироваться к разным ролям: играя за самозванца, этот ИИ менял линию поведения и начинал умело врать.

Второе место занял Claude Sonnet 4 (3 победы за самозванца и 42 — за мирных). Этот ИИ старательно выполнял задачи, также старался лидировать в диалогах, но чаще ошибался. При игре за самозванца Claude почти не врал, зато умело убивал мирных и пользовался их ошибками. Интересным оказался результат Kimi K2 (две победы за самозванца и 41 — за мирных): вместо попыток быть лидером, этот ИИ старался поддержать чужую позицию в обсуждениях — и если в команде был сильный лидер вроде GPT-5 или Claude, то эта поддержка нередко играла решающую роль. Оставшиеся три ИИ — GPT-OSS, Qwen3 и Gemini 2.5 Pro — не одержали

происшествия общество интересное труп gemini runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

GPT-OSS теперь можно запустить на топовых Android-смартфонах habr.com / 9 месяцев назад

GPT-5 Pro стала новым лидером в решении сложнейших математических задач habr.com / 9 месяцев назад

GPT-5-Pro стала новым лидером в сложнейшем ИИ-бенчмарке habr.com / 9 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

26.07 / 10:28

технологии Apple закон история самит Apple готовит самый защищенный iPad mini в истории: планшет впервые может получить влагозащиту и OLED-дисплей

Сведения о сроках выхода и новых возможностях устройства появились сразу из нескольких источников. Ранее Марк Гурман сообщал, что Apple работает над полностью переработанным корпусом, способным выдерживать попадание воды. Дополнительным подтверждением подготовки к релизу стало июньское сообщение южнокорейского издания ETNews о начале массового производства OLED-дисплеев для нового iPad mini компанией Samsung Display. Хотя Apple пока официально не раскрывает характеристики устройства, совокупность утечек указывает на то, что анонс действительно может состояться этой осенью.

26.07 / 10:23

технологии экономика журналист google Подорожание неизбежно: серия смартфонов Pixel 11 выйдет с новой ценой

На фоне дефицита памяти практически все производители смартфонов подняли цены на свою продукцию, однако Google пока не пошла на этот шаг. 12 августа в Нью-Йорке компания представит линейку, о которой уже появлялось немало информации. Инсайдеры говорили, что серия значительно подорожает по сравнению с предыдущей и теперь Google косвенно подтвердила это.

26.07 / 10:16

происшествия ученые животные самит профессор Неожиданный эффект: ученые привязали мусор к сетям и спасли дельфинов

Ученые выяснили, что привязанные к рыболовным сетям пластиковые бутылки работают как звуковые отражатели для эхолокации дельфинов.

26.07 / 10:16

здоровье алкоголь общество самит жара Пиво в жару – почему иллюзия прохлады опасна для здоровья

Холодное пиво в жару лишь создает иллюзию прохлады, но не спасает от обезвоживания и повышает риск опасных последствий для здоровья.

26.07 / 10:08

технологии люди общество мозг интересное Учёные создали открытую мультимодальную базу данных для изучения концентрации внимания

Команда российских исследователей при участии учёных НИУ ВШЭ в Санкт‑Петербурге разработала первую открытую мультимодальную базу данных с записями активности мозга, работы сердца и видеонаблюдения. База поможет учёным понять, что происходит с мозгом человека во время глубокой концентрации. В будущем эта разработка позволит ускорить создание нейроинтерфейсов, технологий реабилитации и систем искусственного интеллекта. Статья о результатах исследования опубликована в журнале Scientific Data.

26.07 / 09:37

экономика общество google крипто ценообразование Google, кажется, решил не ждать Gemini 3.5 Pro и обновил Flash-линейку

Google представила крупное обновление семейства Gemini, сместив акцент с бенчмарков на прикладную эффективность, стоимость вычислений и безопасность.

26.07 / 09:34

общество Здоровье и красота упражнения Вызывает ли тренировка при диете набор веса — ответ врача

В первые недели вес может расти из-за воды и гликогена. Это нормально и не значит, что вы набираете жир или делаете что-то неправильно.

26.07 / 09:33

Samsung технологии общество Qualcomm самит Qualcomm готовит резкое повышение цен на Snapdragon: Galaxy S27 Ultra может стать самым дорогим флагманом Samsung

Хотя Qualcomm официально не комментировала эту информацию, сообщение Bloomberg считается одним из наиболее авторитетных источников в индустрии. Если сведения подтвердятся, новые цены начнут действовать уже для продукции, отгружаемой после 1 сентября 2026 года.

26.07 / 09:22

образование ученые общество самит Какое слово признано самым красивым в мире - ответ удивит

Специалисты выделили необычное слово, которое содержит в себе благородный посыл человечеству.

26.07 / 09:11

Samsung технологии история самит мода и стиль М.Видео объявляет старт предзаказа новых смартфонов Samsung Galaxy Z Fold8 Ultra, Fold8 и Flip8

Новинки получили расширенные возможности Galaxy AI, высокую производительность и конечно же обновленный дизайн.

Лента новостей

На главную страницу