Об этом же в других СМИ

habr.com / 3 недели назад

Чат-бот как оружие: опубликованы требования США к Claude Fable 5 и Mythos 5

habr.com / 3 недели назад

Местами лучше Claude Fable 5: открытая GLM-5.2 показала сильные результаты в бенчмарках

habr.com / 4 недели назад

Ссора Anthropic с Трампом «убила» Claude Fable — а джейлбрейки лишь дали повод

habr.com / 4 недели назад

Власти США испугались кражи Claude Mythos Китаем — и заблокировали передовые модели Anthropic

habr.com / 1 месяц назад

«Амодеи отказался исправить Claude Fable 5»: в Белом доме объяснили блокировку мощнейшей модели Anthropic

Больше по теме

01.06.2026 - 03:23 / habr.com

Вышел Claude Opus 4.8 — модель в 4 раза реже пропускает свои же баги

Anthropic выпустила Claude Opus 4.8 — обновление флагманской модели, доступное с сегодняшнего дня по той же цене, что и предыдущая версия: $5 за миллион входных токенов и $25 за миллион выходных. Сама компания называет релиз "скромным, но ощутимым улучшением Opus 4.7". Главная особенность касается не бенчмарков, а честности: по внутренним замерам Opus 4.8 примерно в 4 раза реже предыдущей версии оставляет незамеченными ошибки в коде, который сам же и написал.

За этим стоит общая болезнь больших языковых моделей, которую Anthropic описывает прямым текстом: модели склонны делать поспешные выводы и уверенно докладывать об успехе, когда доказательств на самом деле мало. По словам компании, Opus 4.8 чаще честно отмечает, в чем он не уверен, и реже выдает необоснованные утверждения за факт. Проще говоря, новую модель учили не казаться компетентной, а признавать пределы собственной работы — поворот, прямо противоположный гонке за красивыми результатами тестов.

Несмотря на скромность, Opus 4.8 лидирует в большинстве бенчмарков. На SWE-Bench Pro (агентное программирование) он набирает 69,2% против 64,3% у Opus 4.7, на OSWorld-Verified (управление компьютером) — 83,4%, а на оценке знаний GDPval-AA выдает 1890 баллов против 1769 у GPT-5.5. Единственное заметное поражение — терминальный кодинг на Terminal-Bench: 74,6% против 78,2% у GPT-5.5. Любопытно, что Anthropic сама в сноске признает, что на родном для GPT-5.5 инструментарии Codex CLI разрыв еще больше — там у конкурента 83,4%.

Отдельно компания показала график "несогласованного поведения" — склонности модели к обману или потаканию злоупотреблениям. Здесь Opus 4.8 заметно безопаснее Opus 4.7 и почти сравнялся с Claude Mythos Preview — закрытой экспериментальной моделью, которую в

общество самит болезнь крипто runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Правительство США закрыло доступ к Claude Fable 5 неамериканцам — модель в итоге отключили для всех habr.com / 1 месяц назад

Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил новый бенчмарк Agent Arena habr.com / 1 месяц назад

Несколько копий Claude Fable 5 устроили войну друг с другом: странные эпизоды из system card модели habr.com / 1 месяц назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 19:26

Samsung технологии Qualcomm Pink Складные смартфоны Почти без изменений, но дороже: инсайдер раскрыл характеристики, цены и цвета складного Samsung Galaxy Z Flip 8

Авторитетный немецкий инсайдер Роланд Квандт (Roland Quandt) продолжает сливать подробности складных флагманов Samsung. Он уже раскрыл все характеристики Galaxy Z Fold 8 и Galaxy Z Fold 8 Ultra и поделился информацией о Galaxy Z Flip 8, который, по слухам, может стать последним смартфоном этой серии.

16.07 / 19:26

продукты история прогноз Шоу бизнес Take-Two GTA VI может принести разработчикам до $5,2 млрд за первую неделю после релиза — аналитики поделились новым прогнозом

Информация портала APP. о том, что за первые сутки после старта предзаказов GTA VI было продано 39 млн копий, оказалась ими неправильно интерпретирована и обозначала ожидаемые показатели за первый год. Теперь же аналитическое агентство Newzoo поделилось собственным прогнозом, который выглядит вполне реалистично, хотя цифры выглядят не менее впечатляюще.

16.07 / 19:03

люди здоровье дети общество климат Сколько воды нужно пить для здоровья сердца и суставов

Достаточное потребление воды может значительно снизить риск сердечно-сосудистых заболеваний и проблем с суставами, утверждают врачи.

16.07 / 19:03

бизнес люди деньги общество политика Люди, родившиеся в эти дни, склонны становиться богатыми

Какие числа связаны с успехом, богатством и известностью, рассказали нумерологи.

16.07 / 19:03

происшествия люди ученые закон общество Миллионы людей убивает явление, которое обходит законы – исследование

Международная группа ученых выявила смертельную опасность ультрамелких частиц в воздухе. Ежегодно этот невидимый смог уносит жизни миллионов людей.

16.07 / 19:03

технологии ученые общество человек смерть Новое открытие об организме человека после смерти совершили ученые

Ученым удалось временно "запустить" работу организма человека после биологической смерти.

16.07 / 19:03

люди здоровье общество самит упражнения Бесплатное упражнение, которое защитит от инфаркта и рака

Как бесплатно привести тело в форму без изнурительных тренировок и при этом свести к минимуму риски ряда болезней.

16.07 / 18:39

история google SpaceXAI удалит все пользовательские данные Grok Build из-за опасений по поводу конфиденциальности

SpaceXAI удалит все пользовательские данные из консольного агента для разработки Grok Build. Ранее независимый исследователь по информационной безопасности обнаружил, что Grok Build обрабатывает их некорректно.

16.07 / 18:20

технологии общество самит электроэнергия планшеты Belkin представила необычный повербанк с фонарем, датчиком движения и быстрой зарядкой до 45 Вт

Компания Belkin официально представила на китайском рынке новый внешний аккумулятор BoostCharge Pro Power Bank 10K with Motion Sensing Light. Новинка сочетает функции классического пауэрбанка, компактного светильника и аварийного фонаря. Устройство уже поступило в продажу на площадке JD.com по цене 329 юаней, что соответствует примерно 1 900 гривнам по актуальному курсу.

16.07 / 17:47

люди общество отдых самит врачи Укусы комаров больше не проблема - как убрать зуд за секунды

Ученые нашли неожиданный способ, быстро снимающий зуд от укусов комаров без мазей и лекарств.

Лента новостей

На главную страницу