



Сможет ли ИИ-агент уложиться в бюджет? Бенчмарк Alibaba DeepPlanning ставит жесткие условия
Команда Alibaba представила DeepPlanning – новый комплексный бенчмарк, призванный оценить способность ИИ-агентов к долгосрочному стратегическому планированию в условиях, максимально приближенных к реальности. В отличие от многих существующих тестов, которые проверяют пошаговое рассуждение, DeepPlanning фокусируется на верифицируемых глобальных ограничениях: жестких временных и финансовых бюджетах, а также комбинаторной оптимизации, которую необходимо соблюсти в рамках всего плана.
Бенчмарк включает два практических и чрезвычайно сложных домена: многодневное планирование путешествий с поминутным расписанием и сложный шопинг с использованием и комбинированием купонов. Каждая задача – это не просто головоломка, а симуляция среды, где агенту необходимо активно собирать информацию через предоставленные API, удовлетворять локальные ограничения (например, конкретные пожелания к отелю) и при этом укладываться в глобальные лимиты. Один просчет – и весь план летит в тартарары.
Агент выступает в роли персонального помощника, который должен организовать многодневную поездку. На входе – запрос на естественном языке с указанием пункта назначения, дат, бюджета и специфических предпочтений (например, “отель 3 звезды с феном”).
В распоряжении агента 9 специализированных API для поиска рейсов, поездов, отелей, ресторанов и достопримечательностей. На выходе требуется предоставить структурированный отчет с пошаговым расписанием и детализацией затрат. Ключевой навык здесь – пространственно-временное мышление: нужно убедиться, что время вылета, часы работы музеев и продолжительность трансферов идеально состыкованы, без накладок и превышения бюджета.
Вторая область превращает ИИ в хитроумного покупателя. Агент должен решить комбинаторную
Читать на habr.com