Opus 4.7 галлюцинирует в два раза реже Opus 4.6 — при той же точности
Независимый бенчмарк AA-Omniscience зафиксировал у новой Claude Opus 4.7 почти двукратное снижение галлюцинаций — когда у модели нет ответа на вопрос, она выдумывает его в 32% случаев, а в остальных говорит "не знаю". У Opus 4.6 этот показатель составлял 61%. Точность ответов на сложные вопросы при этом осталась на прежнем уровне, около 46%. Anthropic улучшила не объем знаний модели, а ее калибровку — способность признавать незнание вместо фабрикации ответа.
AA-Omniscience — бенчмарк от Artificial Analysis, вышедший в ноябре 2025 года: 6000 вопросов из шести экономически значимых доменов (бизнес, право, медицина, разработка ПО, наука и гуманитарные дисциплины). Вопросы намеренно отбирались так, чтобы на них мог ответить только эксперт в своей области. Например: как в Rust 2024 называется конкурентность внутри одной задачи в отличие от конкурентности между задачами, или что означает аббревиатура EAPR в колоректальной хирургии применительно к extralevator-технике. Отвечает модель без доступа к интернету и инструментам — проверяется то, что модель реально запомнила при обучении. При запуске бенчмарка в ноябре 2025 максимальную точность среди всех моделей показывали Grok 4 и GPT-5 (high) — всего 39%. 46% у Opus 4.7 на таком уровне сложности — сильный результат.
Уникальность метрики — в системе штрафов: +1 балл за правильный ответ, −1 за неправильный, 0 за отказ отвечать. Hallucination rate здесь — доля неправильных ответов среди всех случаев, где модель не дала правильного: то есть мера переуверенности, а не незнания.
Лидером общего индекса AA-Omniscience остается Gemini 3.1 Pro Preview — 33 балла против 26 у Opus 4.7. Но это две разные стратегии. Google выходит в топ через высокую точность (55% против 46% у Opus 4.7), хотя
Читать на habr.com
