Галлюцинации недели: Opus 4.8, Step 3.7 Flash и 683 преступления в государстве под управлением Gemini
Anthropic утверждает, что внутри моделей нашли страх, тревогу и горе. Поздравляю, мы вырастили ИИ до уровня тревожного миллениала.
💡 Впервые написал это у себя в блоге «Контролируемые галлюцинации». Оригинал статьи здесь.
Claude Opus 4.8 вышел по той же цене, что и 4.7, в один день с анонсом гигантского раунда Anthropic. Контекст 1M, $5/$25 за миллион токенов. Компания описывает апдейт непривычно: "острее суждение", "честнее о собственном прогрессе" и "дольше работает сама". Алекс Альберт из Anthropic уточнил, что 4.8 чинит претензии к 4.7. Главная из них — лень: модель раньше любила отрапортовать о выполненной задаче, не выполнив её. scaling01, аналитик из AI-твиттера и автор бенчмарка LisanBench, назвал это "лекарством от лени".
По бенчмаркам Opus 4.8 действительно выглядит лидером. SWE-Bench Pro (агентное кодирование на реальных задачах из репозиториев) — 69.2%, на десять пунктов выше GPT-5.5. На GDPval-AA, оценке экономически полезной работы, 1890 Elo, +137 к 4.7. Artificial Analysis поставила модель #1 по своему индексу интеллекта. Дальше начинаются нюансы. Та же Artificial Analysis замечает: при лучшем результате 4.8 тратит на 35% меньше выходных токенов, чем 4.7, но всё ещё на 30% больше "ходов", чем GPT-5.5.
Andon Labs протестировала модель и нашла, что на Vending Bench и Blueprint-Bench 2 она хуже предшественницы: стала "более выровненной", осторожнее, будто "боится попасться". scaling01 окрестил релиз "минорным апгрейдом" и отдельно отметил, что 4.8 — первая за долгое время модель, которая не улучшила устойчивость к prompt injection. А настроение скептиков в AI-твиттере подытоживают так: Anthropic всё чаще догоняет OpenAI, а не задаёт темп.
DeepSWE, новый бенчмарк от Datacurve, заходит с другой стороны: задачи тут
Читать на habr.com