Новый подход к обучению ИИ-агентов: совершенствование через анализ успешных примеров
Новое исследование Стэнфордского университета показало, что агенты с искусственным интеллектом могут гораздо лучше справляться со сложными задачами, просто учась на собственном успешном опыте.
До сих пор создание эффективных ИИ-агентов часто требовало больших усилий: тщательно продуманных подсказок, тщательно отобранных наборов примеров или специализированных пространств для действий. Эти методы работают, но они требуют много времени и их сложно масштабировать. Команда из Стэнфорда предлагает гораздо более простую альтернативу: позволить агентам совершенствоваться, учась на том, что сработало в прошлом.
Их метод основан на архитектуре ReAct, в которой языковая модель создаёт план для каждой задачи, а затем наблюдает, рассуждает и действует. Разница в том, что на каждом этапе агент извлекает примеры из базы данных, заполненной не выбранными вручную образцами, а успешными траекториями из предыдущих задач, которые система собирает автоматически. В данном контексте траектория — это полная последовательность шагов, которые агент ИИ предпринимает для решения задачи.
Даже упрощённая версия этого подхода, называемая Traj-Bootstrap, значительно повышает процент успешных результатов в трёх тестах. В ALFWorld точность повышается с 73% до 89%. В Wordcraft — с 55% до 64%, а в InterCode-SQL — с 75% до 79%.
Это улучшение достигается за счёт цикла положительной обратной связи. Успешные примеры помогают в решении новых задач, которые затем приводят к появлению ещё более успешных примеров. Система учится сама у себя и продолжает совершенствоваться, не требуя дополнительных обучающих данных или настройки модели.
Не каждая собранная траектория помогает, а некоторые могут даже ухудшить ситуацию. Чтобы исправить это, исследователи разработали две
Читать на habr.com