Об этом же в других СМИ

"Ядовитые" фразы, которые нельзя говорить собеседнику даже в ссоре

Почему нельзя рассказывать о своих планах никому, даже близким, рассказал психолог

gagadget.com / 1 год назад

Звезда сериала The Last of Us 2 присоединился к работе над Intergalactic: The Heretic Prophet, но подробности держат в секрете даже от актеров

habr.com / 1 год назад

Новый подход к обучению ИИ-агентов: совершенствование через анализ успешных примеров

gagadget.com / 1 год назад

Galaxy S25 FE засветился в бенчмарке с Exynos 2400e и 8 ГБ ОЗУ

Больше по теме

06.05.2025 - 02:49 / habr.com

Бенчмарк Vals.ai: даже продвинутые AI-агенты ненадежны в финансовом анализе

Несмотря на доступ к исследовательским инструментам и высокие затраты на обработку, ведущие языковые модели не справляются со сложными финансовыми задачами.Новый бенчмарк от Vals.ai показывает, что даже самые продвинутые автономные агенты AI остаются ненадежными для финансового анализа. Самая производительная модель, o3 от OpenAI, достигла точности всего 48,3% — при средней стоимости запроса $3,69.

Тест был разработан совместно со Стэнфордской лабораторией и глобальным системно значимым банком. Он состоит из 537 задач, смоделированных на основе реальных обязанностей финансовых аналитиков, включая обзор документов SEC, исследование рынка и прогнозирование. Всего было оценено 22 ведущие модели.

Модели продемонстрировали ограниченный успех в базовых заданиях, таких как извлечение числовых данных или резюмирование текста, где средняя точность варьировалась от 30% до 38%. Однако они в основном не справились с более сложными задачами. В категории «Тенденции» десять моделей набрали 0%, а лучший результат — 28,6% — у Claude 3.7 Sonnet.

Для выполнения этих задач среда бенчмарка предоставляла агентам доступ к таким инструментам, как поиск EDGAR, Google и HTML-парсер. Такие модели, как o3 от OpenAI и Claude 3.7 Sonnet (Thinking), которые чаще использовали эти инструменты, в целом работали лучше. Напротив, такие модели, как Llama 4 Maverick, часто полностью пропускали использование инструментов, производя результаты без проведения каких-либо исследований и показывали соответственно слабые результаты.

Но интенсивное использование инструментов не всегда было признаком лучшей производительности. GPT-4o Mini, который сделал больше всего вызовов инструментов, все еще обеспечивал низкую точность из-за постоянных ошибок в форматировании и

финансы экономика банк самит google SEC gemini dilnaz04

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Microsoft обнаружила, что агенты API стали быстрее, а агенты GUI — более гибкими habr.com / 1 год назад

Bytedance запускает Agent TARS — агент автоматизации AI с открытым исходным кодом habr.com / 1 год назад

Microsoft объединяет силы с Google: новый протокол A2A для совместной работы AI-агентов habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

18.07 / 01:01

медицина люди наука общество депрессия Не зрение и не слух: шестое чувство, о котором многие даже не слышали

Это чувство играет центральную роль в способности человека определять, находится ли его организм в состоянии баланса.

17.07 / 23:26

продукты люди здоровье общество человек Почему не стоит полностью отказываться от соли - ответ врачей

Соль считают вредной, однако ее полное исключение из рациона может привести к неприятным последствиям для здоровья и самочувствия.

17.07 / 22:52

самит Знаменитости курс nintendo мода и стиль Casio выпустила лимитированные G-Shock в стиле культовой Mother 3: часы получили необычный дизайн и эксклюзивный способ продажи

Компания Casio официально представила новую лимитированную версию часов G-Shock DW-5600, созданную совместно с культовой игровой франшизой Mother от Nintendo. Новинка посвящена 20-летию игры Mother 3 и получила яркое оформление, вдохновленное одной из самых запоминающихся сцен проекта.

17.07 / 20:44

Samsung технологии reddit Samsung объяснила странный дефект экрана Galaxy S26 Ultra: проблема оказалась не такой серьезной, как опасались владельцы

Некоторые владельцы Samsung Galaxy S26 Ultra обратили внимание на необычную особенность дисплея нового флагмана. При использовании смартфона на максимальной яркости под прямыми солнечными лучами в центральной части экрана может появляться легкий красноватый оттенок. Сначала пользователи предположили, что речь идет о серьезной аппаратной неисправности, однако Samsung уже выступила с официальным разъяснением и подтвердила, что готовит программное исправление.

17.07 / 20:12

продукты медицина общество самит жара Как охладить кровать за 10 минут - простой трюк, спасающий от жары

Жаркие летние ночи часто становятся настоящим испытанием, но есть способ с этим справиться.

17.07 / 20:12

туризм общество евро курорт пляж Популярные курорты атакует рыба-монстр - может раздробить кости

На опасное существо начали жаловаться рыбаки, ее уже замечают туристы на популярных пляжах.

17.07 / 20:12

связь люди книги психология Психология и отношения Ученый раскрыл "секрет счастья" - все проще, чем кажется

Известный ученый рассказал, что его жизнь буквально разделилась на две части и после 50 лет он стал счастливым.

17.07 / 20:12

здоровье общество самит Здоровье и красота полезные продукты Какие грибы могут обеспечить надежную защиту от рака

Врачи и диетологи советуют чаще включать в свой рацион грибы - особые элементы в их составе могут надежно защитить от развития раковых клеток.

17.07 / 19:26

самит дети и родители MacRumors 1Password получил интеграцию с Claude: ИИ теперь может входить на сайты без доступа к вашим паролям

Компания 1Password официально объявила о запуске интеграции с ИИ-платформой Claude от Anthropic. Новая функция позволяет искусственному интеллекту использовать сохраненные в менеджере паролей учетные данные для выполнения действий в браузере, при этом сами пароли остаются недоступными как для Claude, так и для серверов Anthropic.

17.07 / 19:26

СМИ общество самит doom Software Аша Шарма не выпотрошила id Software: глава студии призвал не верить пессимистичным заголовкам

id Software стала одной из самых пострадавших студий в ходе “большой перезагрузки” XBOX, запущенной Ашей Шармой (Asha Sharma). Авторы культовых шутеров Doom, Wolfenstein и Quake потеряли 136 человек (из 185) и даже утверждалось, что в студии не осталось никого, кто умеет работать с движком id Tech и другим специфическим инструментарием.

Лента новостей

На главную страницу