Claude Opus 4.7, Qwen3.6 35B-A3B и конец pull request как формата
Пока твиттер спорит, поумнел Opus или нет, Codex уже переехал жить в ваш мак, а Hermes на этом фоне незаметно превращается в полноценную альтернативу OpenClaw.
Anthropic на неделе выпустил Claude Opus 4.7. Обещают лучшую работу с долгими задачами, кодом, следованием инструкциям и самопроверкой. Цена прежняя, $5 / $25 за 1M входных и выходных токенов. Рядом появился новый reasoning effort xhigh, между high и max. Claude Code по умолчанию теперь сидит именно на xhigh, и это намёк, что модель заточена скорее под "налей и отойди", чем под парное программирование. Я лично 80% времени сижу на medium и иногда переключаю на high.
На бенчмарках картина бодрая. SWE-bench Pro 64.3% (+11 против 4.6), SWE-bench Verified 87.6% (+7), TerminalBench 2.0 69.4%. По Artificial Analysis, на Intelligence Index сложилась почти равная тройка: Opus 4.7 57.3, Gemini 3.1 Pro 57.2, GPT-5.4 56.8. Cursor на своём внутреннем бенчмарке прыгнул c 58% до 70%, Notion получил +14% к качеству и треть ошибок в инструментах.
Параллельно Anthropic показал Claude Design. Research preview, генерирует прототипы, слайды и одностраничники по текстовому описанию, с экспортом в Canva/PPTX/PDF/HTML и передачей в Claude Code. Твиттер сразу сравнил его с Figma, Lovable и v0, а акции Figma на анонсе просели. Anthropic явно решил, что их территория не заканчивается на чате и коде.
У Opus 4.7 сменили токенизатор, и тот же ввод теперь считается в 1.0–1.35x больше токенов. Борис Черный из команды Claude Code быстро поднял лимиты подписчикам, но API-клиенты достали канкуляторы. Параллельно просел MRCR v2 на 1M токенов: 78.3% → 32.2%. Борис ответил, что MRCR награждает трюки с distractor-stacking, и показал Graphwalks 38.7% → 58.6% как более полезную метрику. Независимый NYT
Читать на habr.com