



Тест CRMArena-Pro показывает, что ИИ-агенты испытывают трудности в реальных бизнес-задачах
Новый тест Salesforce CRMArena-Pro выявляет серьёзные проблемы, с которыми сталкиваются ИИ-агенты в бизнес-контексте. Даже у таких топовых моделей, как Gemini 2.5 Pro, успешный ответ при однократном обращении достигается лишь в 58% случаев. При более длительном диалоге производительность падает до 35%.
CRMArena-Pro предназначена для тестирования того, насколько хорошо большие языковые модели (LLM) могут работать в качестве агентов в реальных бизнес-условиях, особенно при выполнении таких задач CRM, как продажи, обслуживание клиентов и ценообразование. Этот тест основан на оригинальном CRMArena и добавляет больше бизнес-функций, многоэтапных диалогов и тестов на конфиденциальность данных. Используя синтетические данные в организации Salesforce, команда создала 4280 задач по 19 типам бизнес-операций и трём категориям защиты данных.
Результаты показывают пределы возможностей современных LLM. В простых одноэтапных задачах даже такие продвинутые модели, как Gemini 2.5 Pro, достигают максимальной точности в 58%. Но как только системе приходится вести многоэтапные диалоги, задавая вопросы для заполнения пропущенных деталей, производительность падает до 35%.
Компания Salesforce провела обширные тесты с участием девяти LLM и обнаружила, что большинство моделей с трудом задают правильные уточняющие вопросы. В ходе анализа 20 неудачных многоэтапных задач с использованием Gemini 2.5 Pro почти половина из них не была решена из-за того, что модель не запрашивала важную информацию. Модели, которые задают больше вопросов, лучше справляются с такими задачами.
Наилучшие результаты были достигнуты в области автоматизации рабочих процессов, таких как маршрутизация обращений в службу поддержки, где Gemini 2.5 Pro обеспечил 83% показатель
Читать на habr.com