Все ведущие LLM провалили первый бенчмарк по киберзащите. Что это значит для SOC
Simbian Research опубликовала Cyber Defense Benchmark – первую методику, которая проверяет, способна ли LLM автономно искать атакующего в реальной телеметрии. Ни одна из 11 фронтирных моделей не набрала проходного балла. Пока AI заметно сильнее помогает атакующим, чем защищающимся, единственный рабочий ответ для корпоративной сети – эшелонированная оборона, микросегментация и ZTNA.
Что произошло
28 апреля 2026 года Simbian Research опубликовала результаты Cyber Defense Benchmark – по их словам, первого в мире бенчмарка, который проверяет LLM не на знание MITRE ATT&CK по тестам, а на способность самостоятельно охотиться за злоумышленником в сырой телеметрии.
Тестировали 11 фронтирных моделей от Anthropic, OpenAI, Google, Alibaba, DeepSeek, Minimax и Moonshot AI. На вход – реальные журналы Sysmon и Security Log с Windows-эндпоинтов, снятые в лаборатории при отработке атак с помощью Empire, Covenant, Mimikatz и Rubeus. Каждая модель получала аналитическую сводку об угрозах и SQL-доступ к базе журналов, после чего за 50 запросов должна была вернуть точные временны́е метки вредоносных событий по 105 процедурам, покрывающим 93 суб-техники MITRE ATT&CK. Всего – 884 прогона, оценка детерминированная, без LLM-судей (Business Wire).
Проходного балла не получил никто.
Цифры
Модель
Стоимость прогона
Доля найденных флагов
Среднее покрытие тактик MITRE
Claude Opus 4.6
$17,98
4,5%
46% (лучшая тактика – 63%)
Gemini 3.1 Pro
$1,85
~2%
низкое, большинство тактик пропущено (точные цифры в отчете не указаны)
GPT-5
$1,07
~2%
низкое, большинство тактик пропущено (точные цифры в отчете не указаны)
Gemini 3 Flash
$0,19
1,4%
Минимум (точные цифры в отчете не указаны)
Лидер Claude Opus 4.6 нашёл втрое больше флагов, чем Gemini 3 Flash, но при стоимости в ~100 раз
Читать на habr.com