Бенчмарк Vals.ai: даже продвинутые AI-агенты ненадежны в финансовом анализе
Несмотря на доступ к исследовательским инструментам и высокие затраты на обработку, ведущие языковые модели не справляются со сложными финансовыми задачами.Новый бенчмарк от Vals.ai показывает, что даже самые продвинутые автономные агенты AI остаются ненадежными для финансового анализа. Самая производительная модель, o3 от OpenAI, достигла точности всего 48,3% — при средней стоимости запроса $3,69.
Тест был разработан совместно со Стэнфордской лабораторией и глобальным системно значимым банком. Он состоит из 537 задач, смоделированных на основе реальных обязанностей финансовых аналитиков, включая обзор документов SEC, исследование рынка и прогнозирование. Всего было оценено 22 ведущие модели.
Модели продемонстрировали ограниченный успех в базовых заданиях, таких как извлечение числовых данных или резюмирование текста, где средняя точность варьировалась от 30% до 38%. Однако они в основном не справились с более сложными задачами. В категории «Тенденции» десять моделей набрали 0%, а лучший результат — 28,6% — у Claude 3.7 Sonnet.
Для выполнения этих задач среда бенчмарка предоставляла агентам доступ к таким инструментам, как поиск EDGAR, Google и HTML-парсер. Такие модели, как o3 от OpenAI и Claude 3.7 Sonnet (Thinking), которые чаще использовали эти инструменты, в целом работали лучше. Напротив, такие модели, как Llama 4 Maverick, часто полностью пропускали использование инструментов, производя результаты без проведения каких-либо исследований и показывали соответственно слабые результаты.
Но интенсивное использование инструментов не всегда было признаком лучшей производительности. GPT-4o Mini, который сделал больше всего вызовов инструментов, все еще обеспечивал низкую точность из-за постоянных ошибок в форматировании и
Читать на habr.com

