Галлюцинации недели: DeepSeek V4, Kimi K2.6 и неконтролируемые галлюцинации нового флагмана OpenAI
Codex на Mac становится супераппом, Anthropic выкатила постмортем на собственные баги, а DeepSeek на 58 страницах объяснил, почему у них лучшая open weight модель.
OpenAI выпустила GPT-5.5 и позиционирует её как "флагман для реальной работы и автономных потоков". Цена $5 за миллион входных и $30 за миллион выходных токенов, у Pro варианта $30/$180. Это ровно вдвое дороже GPT-5.4 за токен. Идею "за это надо платить" компенсируют тем, что модель тратит токенов меньше: Artificial Analysis отрапортовала ~40% сокращения расхода токенов по их Intelligence Index, и итоговый счёт растёт всего на ~20%. Контекст 1M в API, 400K в Codex.
Бенчмарки это подтверждают. Terminal-Bench 2.0: 82.7%, OSWorld-Verified: 78.7%, SWE-Bench Pro: 58.6%. ARC Prize подтвердил ARC-AGI-2 на 85.0% при цене $1.87 за задачу. На Intelligence Index от AA модель заняла чистое первое место, при этом GPT-5.5 medium сравнялся с Claude Opus 4.7 max при ~четверти стоимости. Дэн Шиппер из Every протестировал её на их Senior Engineer benchmark, 62/100 против 33/100 у Opus 4.7, причём лучшие результаты получились, когда план писал Opus, а реализовывал GPT-5.5.
Ложка дёгтя у этой модели одна и большая. Hallucination rate на AA-Omniscience у GPT-5.5 — 86%. У Opus 4.7 этот же показатель 36%, у Gemini 3.1 Pro Preview 50%. Если планируете использовать её там, где правда важнее темпа, это надо держать в голове.
Главное событие дня прячется не в самой модели. К релизу Codex Mac App прикрутили управление браузером, работу с Sheets и Slides, Docs и PDF, системную диктовку и автоматический ревью кода. WSJ ещё в марте писали, что OpenAI готовит desktop superapp, и теперь понятно, на чём он строится.
DeepSeek дропнул долгожданную V4. Это первое крупное обновление архитектуры с DSV3,
Читать на habr.com