Microsoft обнаружила, что агенты API стали быстрее, а агенты GUI — более гибкими
Исследователи Microsoft сравнили AI-агенты на основе API и GUI и пришли к выводу, что каждый подход имеет свои сильные стороны и что они могут хорошо работать вместе. Агенты API взаимодействуют с программным обеспечением через программируемые интерфейсы. Агенты GUI, напротив, имитируют то, как люди используют программное обеспечение, перемещаясь по меню и нажимая кнопки на экране.
Например, чтобы запланировать событие, агент API может инициировать один вызов функции, в то время как агент GUI откроет приложение календаря, найдет нужный экран и заполнит форму вручную.
Исследователи оценили оба типа агентов по девяти категориям. Одним из ключевых отличий является то, как они взаимодействуют с программным обеспечением: агенты API используют вызовы функций, тогда как агенты GUI полагаются на визуальный контент экрана. В результате агенты API, как правило, более стабильны и менее подвержены ошибкам.
Они также более эффективны: сложные задачи часто можно выполнить за один шаг. Агенты GUI, с другой стороны, должны выполнять несколько действий для достижения одной и той же цели. Но эти дополнительные усилия сопровождаются большей универсальностью: агенты GUI могут управлять практически любым программным обеспечением, имеющим видимый интерфейс, независимо от того, предлагает ли оно API.
Эта гибкость становится особенно полезной при работе с новыми или часто обновляемыми функциями. Агенты GUI могут легче адаптироваться к изменениям интерфейса, в то время как агенты API полагаются на стабильные спецификации. Однако безопасность благоприятствует агентам API. Доступ может быть ограничен на уровне функций. Напротив, агенты GUI часто взаимодействуют со всем интерфейсом одновременно.
Обслуживание также проще с API, которые выигрывают от
Читать на habr.com
