Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил новый бенчмарк Agent Arena
Платформа Arena (бывшая LMArena) опубликовала обновленные результаты Agent Arena — нового лидерборда, который оценивает модели по тому, как они справляются с реальными рабочими задачами в агентском режиме. Первое место занял Claude Fable 5 от Anthropic с общим показателем +11,2% — это улучшение результата относительно средней модели (рейтинг постоянно обновляется, так что текущие цифры могут отличаться). Но есть и ложка дегтя: по управляемости новый флагман оказался лишь 17-м из 23 участников.
Отрыв лидера по ключевым сигналам Arena называет самым большим за все время наблюдений. По подтвержденному выполнению задач Fable 5 набрал +18,2% — почти вдвое больше, чем у второго места, Claude Opus 4.8 в режиме рассуждений (+9,85%). По соотношению похвал и жалоб в репликах пользователей разрыв еще заметнее: +30,6% против +15,3% у Opus 4.8. Модель также реже всех вызывает несуществующие инструменты. При этом по скорости восстановления после ошибок в bash она лишь седьмая, а по управляемости — выполнению пользовательских поправок вроде "нет, сделай иначе" — ушла в минус (-6,8%). Авторы рейтинга сформулировали это так: если Fable может что-то сделать, она сделает это очень хорошо, но если не может или не хочет, направить модель к цели бывает трудно.
Методология Agent Arena принципиально отличается от классических арен с парными сравнениями ответов. Рейтинг строится на данных Agent Mode — режима, где модели получают веб-поиск, файловую систему и терминал и выполняют многошаговые задачи реальных пользователей: пишут код, отлаживают проекты, собирают документы и исследуют веб. Подход называется causal tracing: агент рассматривается как система из компонентов (модель-оркестратор, сабагенты, генераторы изображений, элементы харнесса), их
Читать на habr.com