Об этом же в других СМИ

habr.com / 3 дня назад

Claude Fable 5 разблокировали — модель вновь доступна в API и подписках по промо-периоду

habr.com / 3 дня назад

Fable 5 уже может заменить фрилансеров на 16% реальных заказов — рост в 6 раз за 8 месяцев

habr.com / 3 дня назад

GLM-5.2 получила свой аналог Claude Code. Кстати, модели Claude туда тоже подходят

habr.com / 5 дней назад

США сняли блокировку с Claude Fable 5 и Mythos 5 — модели возвращаются для всех

habr.com / 5 дней назад

Claude Fable 5 доказал 12-летнюю гипотезу квантовой оптимизации — но триумф подпортил человек с тем же решением

Больше по теме

16.06.2026 - 10:37 / habr.com

Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил новый бенчмарк Agent Arena

Платформа Arena (бывшая LMArena) опубликовала обновленные результаты Agent Arena — нового лидерборда, который оценивает модели по тому, как они справляются с реальными рабочими задачами в агентском режиме. Первое место занял Claude Fable 5 от Anthropic с общим показателем +11,2% — это улучшение результата относительно средней модели (рейтинг постоянно обновляется, так что текущие цифры могут отличаться). Но есть и ложка дегтя: по управляемости новый флагман оказался лишь 17-м из 23 участников.

Отрыв лидера по ключевым сигналам Arena называет самым большим за все время наблюдений. По подтвержденному выполнению задач Fable 5 набрал +18,2% — почти вдвое больше, чем у второго места, Claude Opus 4.8 в режиме рассуждений (+9,85%). По соотношению похвал и жалоб в репликах пользователей разрыв еще заметнее: +30,6% против +15,3% у Opus 4.8. Модель также реже всех вызывает несуществующие инструменты. При этом по скорости восстановления после ошибок в bash она лишь седьмая, а по управляемости — выполнению пользовательских поправок вроде "нет, сделай иначе" — ушла в минус (-6,8%). Авторы рейтинга сформулировали это так: если Fable может что-то сделать, она сделает это очень хорошо, но если не может или не хочет, направить модель к цели бывает трудно.

Методология Agent Arena принципиально отличается от классических арен с парными сравнениями ответов. Рейтинг строится на данных Agent Mode — режима, где модели получают веб-поиск, файловую систему и терминал и выполняют многошаговые задачи реальных пользователей: пишут код, отлаживают проекты, собирают документы и исследуют веб. Подход называется causal tracing: агент рассматривается как система из компонентов (модель-оркестратор, сабагенты, генераторы изображений, элементы харнесса), их

общество самит крипто runawayllm Shell

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Claude Fable 5 могут вернуть уже на следующей неделе — Axios habr.com / 1 неделю назад

Claude Code за 5 минут вскрыл CAN-шину автомобиля — то, на что у инженера уходят часы habr.com / 1 неделю назад

США частично сняли блокировку с Claude Mythos 5 — но только для сотни компаний habr.com / 1 неделю назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

08.07 / 15:45

технологии искусственный интеллект общество вирус расследование Хакер с ИИ взломал защиту крупной компании всего за 72 часа

Искусственный интеллект превратил обычную кибератаку в молниеносную операцию.

08.07 / 15:45

продукты здоровье общество самит Здоровье и красота Врач назвала самую полезную кашу в мире

Эксперты составили рейтинг самых полезных круп, в который вошли несколько очень популярных каш.

08.07 / 15:06

технологии происшествия Apple Windows общество Windows 11 получит Cloud Rebuild — ответ Microsoft на облачное восстановление от Apple

Компания Microsoft решила, что в 2026 году заставлять пользователей искать «чистую» флешку для реанимации компьютера — это немного слишком. В тестовых сборках Windows 11 появилась функция Cloud Rebuild, которая обещает превратить процесс переустановки системы в легкую прогулку для тех, кто устал от бесконечных «синих экранов смерти».

08.07 / 14:56

экономика наука NASA космос NASA пробудило зонд, который находился в особой космической «спячке»

Речь идет о космическом аппарате New Horizons. Сообщается, что он провел рекордное время в анабиозе, который растянулся практически на год. Сейчас зонд вернули в рабочее состояние, он готов начать передачу научных данных, собранных в далеком поясе Койпера, далеко за пределами Плутона.

08.07 / 14:39

самит Дом и интерьер правительство OpenAI Luna OpenAI запускает GPT-5.6: три новые модели, которые прошли через «фильтр» Белого дома

Компания OpenAI официально объявила о глобальном запуске новой серии искусственного интеллекта GPT-5.6. После короткого периода закрытых тестов для избранных партнеров доступ к системе открыт для широкой общественности. На этот раз разработчики решили не ограничиваться одной моделью, а представить целое семейство: Sol, Luna и Terra, каждая из которых имеет свою специализацию и, что важнее, цену.

08.07 / 14:38

финансы экономика самит валюта google Отчет: на Binance приходится 57% биржевых резервов стейблкоинов

Binance Research опубликовала отчет о роли стейблкоинов в трансформации финансового ландшафта. В нем объединены собственные данные Binance Research и метрики экосистемы, которые ранее не публиковались, сообщили Incrypted в компании. Отчет подчеркивает позиции Binance в сферах внедрения стейблкоинов, инфраструктуры и практического использования цифровых активов в реальном мире. По словам авторов отчета, токенизированные финансы масштабируются быстрее, чем ожидалось. Объем торговли бессрочными контрактами, связанными с активами традиционных финансов (

08.07 / 14:37

люди пожар ученые общество природа Человек приручил огонь раньше, чем считалось - исследование

Исследователи узнали, когда древние люди научились использовать огонь для приготовления пищи.

08.07 / 14:30

экономика пилот Fix Price запустил пилот AI-ассистента для заведующих магазинами

ПАО «Фикс Прайс» (MOEX: FIXR; «Fix Price», «Компания» или «Группа»), одна из крупнейших в мире и ведущая в России сеть магазинов низких фиксированных цен, запустила пилот AI-ассистента для заведующих магазинами. Цель проекта – упростить повседневную работу заведующих, сократить время на поиск ответов на вопросы, которые касаются регламентов и инструкций, а также операционных показателей магазинов. Ассистент объединяет такие сценарии в «одном окне» – мобильном приложении заведующих, которое они используют ежедневно.

08.07 / 14:25

технологии Apple Будущий смартфон iPhone Air 2 получит увеличенную батарею

Компания Apple, как ожидается, представит iPhone Air 2 в начале 2027 года одновременно с моделями iPhone 18 и iPhone 18e. Ранее инсайдеры сообщали, что новинка получит двойную основную камеру и улучшенную автономность, а теперь в сети появились новые подробности о емкости аккумулятора.

08.07 / 14:12

экономика самит криптовалюта google BTC Сооснователь Zcash предложил пересмотреть лимит эмиссии биткоина в 21 млн BTC

Сооснователь Zcash Эли Бен-Сассон заявил, что фиксированное ограничение эмиссии биткоина на уровне 21 млн BTC в долгосрочной перспективе «не имеет смысла» из-за утраты приватных ключей. Его предложение вызвало оживленную дискуссию среди участников криптосообщества. По мнению Бен-Сассона, со временем все больше биткоинов будут становиться недоступными из-за утраты ключей. Он предложил вместо жесткого лимита установить максимальную скорость эмиссии — например, до 4% в год. По словам сооснователя Zcash, такой подход гарантир

Лента новостей

На главную страницу