Вышел Claude Opus 4.8 — модель в 4 раза реже пропускает свои же баги
Anthropic выпустила Claude Opus 4.8 — обновление флагманской модели, доступное с сегодняшнего дня по той же цене, что и предыдущая версия: $5 за миллион входных токенов и $25 за миллион выходных. Сама компания называет релиз "скромным, но ощутимым улучшением Opus 4.7". Главная особенность касается не бенчмарков, а честности: по внутренним замерам Opus 4.8 примерно в 4 раза реже предыдущей версии оставляет незамеченными ошибки в коде, который сам же и написал.
За этим стоит общая болезнь больших языковых моделей, которую Anthropic описывает прямым текстом: модели склонны делать поспешные выводы и уверенно докладывать об успехе, когда доказательств на самом деле мало. По словам компании, Opus 4.8 чаще честно отмечает, в чем он не уверен, и реже выдает необоснованные утверждения за факт. Проще говоря, новую модель учили не казаться компетентной, а признавать пределы собственной работы — поворот, прямо противоположный гонке за красивыми результатами тестов.
Несмотря на скромность, Opus 4.8 лидирует в большинстве бенчмарков. На SWE-Bench Pro (агентное программирование) он набирает 69,2% против 64,3% у Opus 4.7, на OSWorld-Verified (управление компьютером) — 83,4%, а на оценке знаний GDPval-AA выдает 1890 баллов против 1769 у GPT-5.5. Единственное заметное поражение — терминальный кодинг на Terminal-Bench: 74,6% против 78,2% у GPT-5.5. Любопытно, что Anthropic сама в сноске признает, что на родном для GPT-5.5 инструментарии Codex CLI разрыв еще больше — там у конкурента 83,4%.
Отдельно компания показала график "несогласованного поведения" — склонности модели к обману или потаканию злоупотреблениям. Здесь Opus 4.8 заметно безопаснее Opus 4.7 и почти сравнялся с Claude Mythos Preview — закрытой экспериментальной моделью, которую в
Читать на habr.com