Google научил ИИ договариваться без «надсмотрщика»: прощай, ручная координация
Когда несколько агентов искусственного интеллекта оказываются в одной среде, они обычно ведут себя как эгоистичные подростки: каждый тянет одеяло на себя, и общий результат катится к чертям. Проблема «каждого за себя» в децентрализованных системах годами была головной болью разработчиков, но команда Paradigms of Intelligence из Google, похоже, нашла способ превратить этот цифровой дарвинизм в конструктивное сотрудничество без написания тысяч скучных правил.
Для проверки своей теории ученые использовали классику теории игр — дилемму заключенного. Это модель, где рациональные игроки часто выбирают предательство вместо сотрудничества, хотя совместная работа принесла бы больше пользы обоим. В мире ИИ это означает, что агенты тратят вычислительные ресурсы на конкуренцию и взаимное блокирование вместо того, чтобы быстро решить задачу пользователя.
Вместо того, чтобы вручную ограничивать действия программ, исследователи предложили метод Predictive Policy Improvement (PPI). Ключевая фишка в том, как именно обучались эти цифровые сущности. Их бросили в среду с максимально разнообразным пулом противников: от примитивных статических ботов до сложных моделей, которые постоянно меняют поведение. Это заставило агентов не просто зубрить шаблоны, а адаптироваться к окружению в реальном времени, опираясь лишь на историю своих взаимодействий.
Сегодня популярные фреймворки вроде LangGraph работают по принципу «кукловода»: разработчик должен собственноручно прописывать логику переходов, условия и сложные схемы координации. Это надежно для простых скриптов, но масштабируется так же трудно, как бюрократическая машина большой корпорации. Подход Google предлагает сместить акцент: теперь человек не пишет правила игры, а лишь создает условия для
Читать на gagadget.com