Как научить ИИ-агентов лучше планировать задачи с помощью мета-плана?
Языковые модели (LLM) уже умеют решать сложные задачи, но их способность к планированию остается несовершенной. Исследователи из Пекинского университета представили новый метод MPO (Meta Plan Optimization), который помогает LLM-агентам эффективнее выполнять многошаговые задачи.
MPO — это подход, который улучшает планирование действий ИИ-агентов за счет использования мета-планов. Эти планы представляют собой высокоуровневые стратегии выполнения задач, которые абстрагированы от конкретных деталей среды. Например, для задачи "посмотреть на книгу под лампой" мета-план может выглядеть так:
Перейдите туда, где может находиться книга;
Возьмите книгу;
Перейдите к лампе;
Включите лампу и осмотрите книгу.
Главное преимущество MPO заключается в том, что он работает как универсальное решение, которое можно внедрить в уже существующие системы без необходимости пересматривать всю архитектуру модели. Это делает его удобным инструментом для разработчиков.
Кроме того, MPO позволяет агентам адаптироваться к новым условиям. Например, если задача требует найти предмет в комнате, мета-план может быть абстрактным: "Начните проверку с первого возможного места". Такая стратегия позволяет агенту действовать гибко, даже если он сталкивается с незнакомой ситуацией.
Процесс работы MPO можно разделить на несколько этапов:
Генерация начальных планов
На начальном этапе система учится создавать мета-планы с помощью обучения на примерах. Однако в существующих данных есть только готовые решения задач, но нет самих мета-планов. Чтобы решить эту проблему, исследователи использовали GPT-4o для автоматического создания базового набора планов. Модель получала описание задачи и пример успешного выполнения, после чего создавала обобщенный план решения. Эти планы затем


