Об этом же в других СМИ

habr.com / 1 год назад

Google запускает Veo 3 Fast в 159 странах, теперь пользователи Gemini Pro могут создавать видео в разрешении до 720p

gagadget.com / 1 год назад

Еще немного рендеров: инсайдер показал, как будут выглядеть флагманские iPhone 17 Pro и Pro Max

gagadget.com / 1 год назад

Redmi Note 14 Pro и Pro+ теперь доступны в элегантном цвете Champagne Gold

ilenta.com / 1 год назад

Раскрыты характеристики Google Pixel 10 Pro и Pixel 10 Pro XL

gagadget.com / 1 год назад

Google Pixel 10 Pro и Pro XL получат большие батареи и более яркие дисплеи - первые утечки

Больше по теме

19.06.2025 - 06:48 / habr.com

Тест CRMArena-Pro показывает, что ИИ-агенты испытывают трудности в реальных бизнес-задачах

Новый тест Salesforce CRMArena-Pro выявляет серьёзные проблемы, с которыми сталкиваются ИИ-агенты в бизнес-контексте. Даже у таких топовых моделей, как Gemini 2.5 Pro, успешный ответ при однократном обращении достигается лишь в 58% случаев. При более длительном диалоге производительность падает до 35%.

CRMArena-Pro предназначена для тестирования того, насколько хорошо большие языковые модели (LLM) могут работать в качестве агентов в реальных бизнес-условиях, особенно при выполнении таких задач CRM, как продажи, обслуживание клиентов и ценообразование. Этот тест основан на оригинальном CRMArena и добавляет больше бизнес-функций, многоэтапных диалогов и тестов на конфиденциальность данных. Используя синтетические данные в организации Salesforce, команда создала 4280 задач по 19 типам бизнес-операций и трём категориям защиты данных.

Результаты показывают пределы возможностей современных LLM. В простых одноэтапных задачах даже такие продвинутые модели, как Gemini 2.5 Pro, достигают максимальной точности в 58%. Но как только системе приходится вести многоэтапные диалоги, задавая вопросы для заполнения пропущенных деталей, производительность падает до 35%.

Компания Salesforce провела обширные тесты с участием девяти LLM и обнаружила, что большинство моделей с трудом задают правильные уточняющие вопросы. В ходе анализа 20 неудачных многоэтапных задач с использованием Gemini 2.5 Pro почти половина из них не была решена из-за того, что модель не запрашивала важную информацию. Модели, которые задают больше вопросов, лучше справляются с такими задачами.

Наилучшие результаты были достигнуты в области автоматизации рабочих процессов, таких как маршрутизация обращений в службу поддержки, где Gemini 2.5 Pro обеспечил 83% показатель

продукты общество самит ценообразование gemini mefdayy Microsoft

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Microsoft представила агента с искусственным интеллектом в меню настроек Windows habr.com / 1 год назад

Google передает протокол Agent2Agent в Linux Foundation для создания открытого стандарта ИИ-агентов habr.com / 1 год назад

Простой 30-секундный тест раскроет истинный характер человека - что подсказали психологи cursorinfo.co.il / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

14.07 / 05:30

лайфхаки для бизнеса Свой бренд вместо чужого бизнеса: почему всё больше экспертов запускают собственные продукты - Журнал "ФОКУС ВНИМАНИЯ"

Ещё несколько лет назад собственный бренд казался чем-то, доступным только крупным компаниям и производителям с серьезными инвестициями.

14.07 / 05:12

люди самит кофе роды интересное Забудьте о сахаре – как соль делает кофе мягче и вкуснее

Любители кофе по всему миру активно экспериментируют с необычными добавками, стремясь открыть новые грани вкуса своего утреннего напитка.

14.07 / 05:11

связь экономика Amazon история общество AWS раскрыла детали первой в истории трансляции 4K‑видео с Луны — сеть для передачи сигнала собрали за несколько недель

Amazon Web Services раскрыла технические подробности первой в истории трансляции видео в разрешении 4K с Луны на Землю, которая состоялась в апреле 2026 года в ходе миссии Artemis II. Трансляцию посмотрели около 25 млн человек через NASA+, YouTube и Prime Video.

14.07 / 04:57

люди наука история общество экспедиция В Турции обнаружили доисторическую пещеру с уникальными рисунками: как выглядели (фото)

В восточной части Турции археологи открыли доисторическую пещеру, стены которой покрыты десятками древних изображений людей, животных и символов. Ученые считают, что эта находка может стать одним из важнейших памятников наскального искусства в Анатолии, хотя его точный возраст еще предстоит установить.

14.07 / 04:36

здоровье продукты питания общество Здоровье и красота еда Что добавить в завтрак для идеальной работы желудка

Американские нутрициологи призвали пересмотреть состав традиционных утренних блюд. Сочетание протеина и углеводов признано лучшим решением для здоровья.

14.07 / 03:50

бизнес продукты связь технологии конференция UserGate зарегистрировал товарный знак «Архитектура сетевого доверия»

UserGate, ведущий российский разработчик решений в области кибербезопасности, сообщил о государственной регистрации товарного знака «Архитектура сетевого доверия». Регистрация подтверждает исключительное право компании на использование данного обозначения в отношении продуктов и услуг в области информационной безопасности.

14.07 / 03:37

люди общество человек сон интересное Как заснуть намного быстрее - интересный лайфхак

Не всем людям удается быстро заснуть, однако японское упражнение поможет ускорить этот процесс.

14.07 / 03:00

люди общество женщина знаки зодиака мода и стиль Женщины, перед которыми невозможно устоять - два знака Зодиака

Некоторые женщины входят в комнату, и внезапно атмосфера вокруг них становится более напряженной.

14.07 / 01:50

продукты люди общество женщина гигиена Как рисовый отвар из Азии стал трендом современной бьюти-индустрии

Традиция использования злаковых отваров существовала у многих азиатских народов. Женщины веками применяли перебродившие растворы для очищения.

14.07 / 00:28

медицина люди здоровье общество журналист Частые ночные походы в туалет — о чем пытается предупредить ваше тело

Ученые выяснили, почему привычка просыпаться по ночам ради посещения уборной может указывать на скрытые проблемы со здоровьем, и как с этим бороться.

Лента новостей

На главную страницу