Об этом же в других СМИ

habr.com / 1 год назад

ИИ-модели научили играть в «Мафию» друг с другом в рамках открытого проекта

habr.com / 1 год назад

Разработчики Among Us объявили о прекращении поддержки версий игры 2022 года и более ранних

telegraf.com.ua / 1 год назад

Наука объясняет библейское чудо: исследователи обнаружили, почему разошлось Красное море в легенде о Моисее (фото)

habr.com / 1 год назад

ИИ учится играть в Super Mario Bros.: какие модели показали лучшие результаты

gagadget.com / 1 год назад

Авторы Split Fiction представили Friend Edition, которая кроме игры также имеет настоящего друга, если вы одиноки и вам не с кем играть

Больше по теме

21.02.2025 - 06:28 / habr.com

Исследователи из Стэнфорда обучили ИИ играть в Among Us: их агенты выигрывают людей уже в 45% случаев

Исследователи из Стэнфорда выпустили статью про то, как обучили модель играть в Among Us, при этом не используя вообще никаких размеченных людьми данных. Вместо этого они применяли только обучение с подкреплением и несколько этапов файнтюнинга, в ходе которых агенты учились общаться, убеждать, лгать или предсказывать предателя (импостера).

Поведение получившихся ИИ-игроков очень напоминает поведение человека: они манипулируют соперниками, врут (правда иногда без повода) и генерируют ложные обвинения. В полностью симуляционных играх их процент победы составляет 56%, а в играх против людей – примерно 45. Да, люди все еще сильнее, но учитывая, что игра требует от игроков сложной социальной стратегии, это удивительный результат. Поехали разбираться, как ученые этого добились.

Итак, на первом этапе агенты должны понять общие правила игры и научиться действовать внутри игровой среды. Для того, чтобы обучить их этому, использовалось обучение с подкреплением, а именно классический алгоритм PPO. Если кратко, на каждом шаге алгоритма у агента есть начальная политика, на основе которой он совершает какие-то действия и получает оценку этих действий от среды. На основе таких оценок агент корректирует свою политику, с которой переходит на следующую итерацию, а затем все повторяется.

Дисклеймер: здесь мы привели лишь краткое поверхностное описание алгоритма. На самом деле PPO гораздо интереснее и глубже, как и другие методы обучения с подкреплением.

Если вас интересуют детали, то вот здесь в нашем тг-канале Data Secrets мы делали большой схематичный разбор PPO и его вариации – GRPO, которая лежит в основе DeepSeek-R1. Кстати, мы – это команда действующих ML-инженеров, и в телеграме мы ежедневно делимся своими конспектами по ML и вот

люди общество политика самит интересное

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Оптимизация подвела: в Monster Hunter Wilds практически невозможно играть на Steam Deck и других портативных консолях gagadget.com / 1 год назад

Claude 3.7 Sonnet от Anthropic может писать код, исправлять ошибки и играть в Pokémon gagadget.com / 1 год назад

Исследователи представили Evo 2 — AI, способный генерировать полные хромосомы и анализировать генетические вариации habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

21.07 / 11:16

технологии Android общество обновления motorola Дождались: первые смартфоны Motorola начали получать бету Android 17

Motorola приступила к рассылке бета-версии Android 17 для ряда своих устройств. Напомним, что программа бета-тестирования была анонсирована еще в феврале — через несколько дней после релиза первой бета-версии от Google. Позже заявки на участие открыли для более чем десятка моделей, однако до недавнего времени компания задерживала выпуск обновлений.

21.07 / 10:54

здоровье общество самит target мосбиржа Perfscale news #2: Fix Protocol, Magic metrics и MCP

Итак, прошлый выпуск новостей очень понравился аудитории, поэтому я продолжаю делится тем, что произошло с Perfscale. Это продолжение новых фичей из Perfscale. Ксати, эти выпуски выходят раньше на моем проекте на sponsr.

21.07 / 10:54

Как сделать AI-агентов действительно полезным инструментом разработки, а не источником новых проблем?

Мы продолжаем наш цикл вебинаров про GenAI! Встречаемся 28 июля в 15:00!

21.07 / 10:46

Samsung технологии история самит интересное Samsung Galaxy Z Fold8 Wide: Титан, широкие экраны и никаких интриг до анонса

Традиция Samsung «сливать» все самое интересное за сутки до официального мероприятия Galaxy Unpacked жива как никогда. Пока маркетологи компании готовят помпезные речи для лондонской сцены, известный инсайдер Roland Quandt выложил в сеть качественные рендеры будущего складного флагмана Galaxy Z Fold8. Похоже, завтрашнюю презентацию можно будет смотреть разве что ради объявления цен, так как с дизайном и «железом» все понятно уже сейчас.

21.07 / 10:30

продукты технологии общество Innostage AIDR включен в реестр российского ПО Минцифры

Продукт Innostage AIDR «Защита ИИ» включен в Единый реестр российского программного обеспечения Минцифры России. Innostage AIDR предназначен для защиты корпоративных ИИ-сервисов на базе больших языковых моделей от атак и утечек данных на этапе эксплуатации. Продукт отнесен к классу средств автоматизации процессов информационной безопасности.

21.07 / 10:30

самит Lowe's Anthropic полностью переработала Code Review в Claude Code: теперь код проверяет целая команда AI-агентов

Anthropic представила обновлённую систему Code Review в Claude Code, которая заметно отличается от привычного увеличения «времени на размышление» модели. Вместо одного промпта с разной глубиной reasoning компания реализовала несколько отдельных пайплайнов проверки кода — от быстрого локального анализа до распределённого облачного ревью.

21.07 / 10:22

Стратегии трейлеры Некроны пробудились и готовы к новой войне: представлен эпичный трейлер стратегии Warhammer 40,000: Dawn of War IV

Менее двух месяцев осталось до релиза амбициозной стратегии в реальном времени Warhammer 40,000: Dawn of War IV и студия KING Art продолжает активно привлекать внимание к игре.

21.07 / 10:15

бизнес продукты технологии общество рубль «Яндекс» назвал победителей первой премии «Сделано с ИИ»

«Яндекс» подвёл итоги первой премии «Сделано с ИИ», учреждённой для специалистов, которые применяют искусственный интеллект при решении профессиональных задач. Победителями стали авторы проектов в сферах науки, бизнеса, разработки и креативных индустрий. Их разработки помогают автоматизировать рабочие процессы, ускорять исследования и создавать цифровые сервисы, рассказали Хабру в пресс‑службе компании.

21.07 / 10:15

продукты технологии финансы Telegram токен Почти 300 репозиториев GitHub использовались для распространения программ-стилеров

На GitHub обнаружили масштабную атаку: 292 репозитория с инфостилерами, которые имитировали известные инструменты в области безопасности, финансов и разработки.

21.07 / 10:15

технологии общество самит лечение болезнь Удалить камни, а не желчный пузырь: новое слово в лечении желчнокаменной болезни

Можно ли удалить камни и сохранить желчный пузырь? Долгое время стандартом лечения желчнокаменной болезни оставалась холецистэктомия – операция по удалению желчного пузыря. Она позволяет устранить симптомы заболевания и исключить риск повторного образования камней.

Лента новостей

На главную страницу