



ИИ пишет код на уровне людей, но не умеет читать часы: Стэнфорд выпустил AI Index 2026
Stanford HAI 13 апреля выпустил девятый ежегодный отчет AI Index — 423 страницы цифр, графиков и бенчмарков, по которым индустрия сверяется весь следующий год. Главный тезис 2026 года — разрыв между тем, что ИИ умеет, и тем, что он не умеет, становится все более странным. На одном полюсе — прорыв в программировании и научных задачах, на другом — провал на вещах, с которыми справляется школьник.
Результат на SWE-bench Verified, который проверяет способность закрывать реальные issue с GitHub, за год вырос с 60% до почти 100%. Gemini DeepThink от Google взял золото Международной математической олимпиады, а модели Anthropic и Google на Humanity’s Last Exam пробили 50% — год назад лучший результат был 8.8%. При этом GPT-5.4 High правильно читает аналоговые часы только в 50.6% случаев против ~90% у обычных людей, а роботы справляются лишь с 12% бытовых задач по бенчмарку BEHAVIOR-1K. Агенты на OSWorld за год выросли с 12% до 66% — но по-прежнему проваливают каждую третью попытку. По сути перед нами тот самый феномен jagged intelligence, про который говорят исследователи — умения ИИ очень неровные и различаются по сферам.
Главный геополитический сюжет отчета — США фактически потеряли преимущество в производительности моделей. На Arena Claude Opus 4.6 Thinking набирает 1548 баллов, но ее уже подпирает Z.ai GLM-5.1 с 1530. США сохраняют лидерство по инвестициям и числу топовых моделей, но Китай опережает по общему объему патентов, публикаций и промышленных роботов. Параллельно США теряют кадры: приток ИИ-исследователей в страну упал на 89% с 2017 года, причем на 80% — за последний год.
Темпы внедрения побили исторические рекорды: генеративный ИИ достиг 53% глобального проникновения за три года — быстрее, чем персональный компьютер
Читать на habr.com