



Один агент управляет, другие делают работу: новая эпоха кооперативного обучения ИИ?
Исследователи из Имперского колледжа Лондона и Ant Group предложили новую архитектуру мульти-агентного обучения, в которой несколько ИИ-агентов совместно решают сложные, многошаговые задачи благодаря разделению ролей и координации.
Один агент выступает в роли менеджера проекта, контролируя ход работы, а остальные специализируются на отдельных задачах, например, поиск в интернете или анализ данных. Такой подход обеспечивает более надёжное выполнение, чем попытки одного агента делать всё сам.
Главная инновация - это алгоритм M-GRPO (Multi-Agent Group Relative Policy Optimization). Он расширяет GRPO и позволяет тренировать менеджера и суб-агентов одновременно, даже если они запускаются на разных серверах или выполняют разные задачи. Каждый агент обучается отдельно, но синхронизируется через общую базу данных.
Кроме того, агенты сохраняют свои роли. Менеджер оценивается по качеству итогового решения, а суб-агенты - по своей части работы и вкладу в общий результат. Это помогает построить устойчивое и скоординированное поведение.
Чтобы справляться с различной частотой действий агентов, M-GRPO предлагает механизм выравнивания, который регулирует, как часто суб-агенты будут вызываться. Это позволяет поддерживать стабильность в обучении, даже если один агент работает постоянно, а другой - реже.
Эксперименты показали, что при тестировании на трёх бенчмарках - GAIA, XBench-DeepSearch и WebWalkerQA - мульти-агентная система показала более стабильное поведение и потребовала меньше тренировочных данных, чем одни агенты или мульти-агенты без обучения суб-агентов.
В реальных сценариях система проявила себя уверенно. Например, в логической задаче с кубиком Рубика главный агент выбрал правильную стратегию для математических шагов, а в
Читать на habr.com