

Честнее и дешевле: Anthropic представила Claude Opus 4.8
- Anthropic выпустила Claude Opus 4.8, «скромное» улучшение предыдущей версии.
- Модель демонстрирует лучшие результаты в основных бенчмарках.
- Также она якобы честнее в отношении собственных ошибок и неподтвержденных утверждений.
- В ближайшие недели Anthropic планирует выпустить в публичный релиз семейство Mythos.
Anthropic представила Claude Opus 4.8, новую версию самой мощной модели компании. По словам разработчика, она выделяется более высокой честностью относительно своих ошибок при написании кода и большей производительностью.
Ключевые изменения
Напомним, Claude Opus 4.7 вышла в апреле 2026 года. Новая модель работает быстрее и эффективнее в сравнительных тестах, а также включает в себя набор новых функций. При этом Claude Opus 4.8 доступна по старой цене — $5 за 1 млн входящих токенов и $25 за 1 млн исходящих.
Сравнивая новую модель с предыдущей, а также основными конкурентами, компания заявила о значительном росте показателей. В бенчмарке SWE-Bench Pro, который оценивает способность исправлять реальные ошибки в коде, Claude Opus 4.8 набрала 69,2% против 64,3% у версии 4.7. У OpenAI GPT-5.5 — 58,6%.
В тесте OSWorld, который анализирует способность выполнять реальные задачи в рамках ОС, модель получила 83,4%. А в бенчмарке GDPval-AA, оценивающем сложные интеллектуальные задачи, результат составил 1890 баллов против 1753 у Claude Opus 4.7.
Вместе с тем модель по-прежнему уступает в GPT-5.5 в тесте Terminal-Bench 2.1. Он оценивает работу ИИ-агентов в реальных терминальных средах.
В бенчмарке Humanity’s Last Exam, который представляет собой набор из 2500 вопросов по различным наукам, модель получила отметку 49,8% без использования инструментов и 57,9% с ними, опередив всех трех конкурентов.
Среди отзывов на
Читать на incrypted.com