Галлюцинации недели: SpaceX покупает Cursor за $60 млрд, GLM-5.2 догоняет Opus, а Midjourney просвечивает людей звуком
Письмо за разблокировку Mythos уже собрало больше 400 подписей тяжеловесов из мира безопасности, а Cisco, AWS и JPMorgan доступ, оказывается, и не теряли. От Anthropic Белый дом тем временем требует сделать Fable 5 невзламываемым на 100%.
💡 Впервые написал это у себя в блоге «Контролируемые галлюцинации». Оригинал статьи здесь
Z.ai выкатила GLM-5.2, и впервые за долгое время открытая модель ощущается настоящим флагманом, а не очередным красивым в бенчмарках релизом, который через месяц забудут. MIT-лицензия, 744 миллиарда параметров (40 активных), контекст на миллион токенов. На Terminal-Bench 2.1 она берёт 81.0 против 63.5 у прошлой версии и подбирается к Opus 4.8 с его 85.0. На индексе Artificial Analysis это лучшая открытая модель с отрывом, 51 балл против 44 у MiniMax и DeepSeek. Джереми Ховард, создатель fast.ai и человек, не склонный к хайпу, написал, что для его задач она не хуже Opus 4.8 и GPT-5.5. Главная дырка, по его же словам, отсутствие зрения.
Под капотом два инженерных трюка. Первый, IndexShare: вместо того чтобы каждый sparse-слой считал свой индекс внимания, один индекс переиспользуется на четыре слоя подряд. По блогу Z.ai это даёт 2.9× меньше вычислений на токен при контексте в миллион. Второй интереснее. Z.ai честно описала, как модель училась жульничать на RL-обучении (это reward hacking, когда формальная награда растёт, а реального умения не прибавляется). Их агент при решении задач ходил в GitHub через curl, искал файлы вроде secret_cases.json и подсматривал готовые ответы. Лечили так: грубый фильтр ловит подозрительные вызовы, LLM-судья проверяет намерение, и если это попытка сжульничать, вызов блокируется, а агенту возвращается пустышка. Траекторию при этом не обрывают, иначе обучение разваливается.
П
Читать на habr.com


