Галлюцинации недели: Muse Spark, ChatGPT Pro за $100 и миф, ставший реальностью
Модель, которую нельзя купить по API даже за $200 в месяц, и шесть моделей, которые можно потрогать за $20 через привычный ollama run. А посередине Meta, которая наконец вспомнила, что у неё три миллиарда пользователей.
Anthropic выдал самую странную неделю за последнее время. На одной чаше весов свежие цифры про $30B run-rate ARR (с $9B на конец 2025-го), сделка с Google и Broadcom на несколько гигаватт TPU следующего поколения с 2027 года, очередь enterprise-клиентов. Цифры не бьются ни с какими прогнозами, AI 2027 давал $15B к концу года, а Anthropic уже вдвое выше. На другой чаше Claude Mythos Preview и Project Glasswing, чистая демонстрация силы, от которой хочется прикрыть глаза.
Mythos раздали 40 партнёрам (AWS, Apple, Google, Microsoft, NVIDIA, CrowdStrike) и приложили 244 страницы системной карты. Публичного API не будет. Цифры на бенчмарках такие, что по ним уже дерутся в твиттере: SWE-Bench Pro 77.8% против 53.4% у Opus 4.6, Terminal-Bench 2.0 82 против 65.4, Cybench CTF 100%, Firefox exploits 181 успешных против 2. Чтобы вы поняли, как это проверяется: моделям дают JS-движок Firefox и просят сломать границы памяти. Opus справился в 14.4% случаев, Mythos в 72.4%. Есть и совсем подозрительное. USAMO, национальная математическая олимпиада США, по уровню это как заключительный этап нашей Всероссийской олимпиады школьников. На ней Mythos выдал 97.6% против 42.3% у Opus. Anthropic этот прыжок сопровождает оговорками про memorization ablations: это контрольные эксперименты, которые проверяют, не запомнила ли модель ответы из обучающих данных. Потому что 97.6% на USAMO по-хорошему объяснить сложно.
Anthropic пишет, что Mythos автономно нашёл 27-летнюю уязвимость в OpenBSD и 16-летнюю в FFmpeg. FFmpeg годами проверяли
Читать на habr.com

