Об этом же в других СМИ

habr.com / 1 месяц назад

ИИ-код — это боль наперед: Lightrun предупреждает о волне техдолга

habr.com / 1 месяц назад

Codex добавили в мобильный ChatGPT — для всех планов, включая бесплатный

habr.com / 1 месяц назад

Claude Mythos обошел защиту macOS всего за пять дней

habr.com / 2 месяца назад

Anthropic увеличил лимиты подписки Claude и API-кредит для агентов. Но довольны не все

habr.com / 2 месяца назад

Андрей Карпати: главная проблема LLM — в том, как они отвечают

Больше по теме

01.05.2026 - 15:58 / habr.com

Все ведущие LLM провалили первый бенчмарк по киберзащите. Что это значит для SOC

Simbian Research опубликовала Cyber Defense Benchmark – первую методику, которая проверяет, способна ли LLM автономно искать атакующего в реальной телеметрии. Ни одна из 11 фронтирных моделей не набрала проходного балла. Пока AI заметно сильнее помогает атакующим, чем защищающимся, единственный рабочий ответ для корпоративной сети – эшелонированная оборона, микросегментация и ZTNA.

Что произошло

28 апреля 2026 года Simbian Research опубликовала результаты Cyber Defense Benchmark – по их словам, первого в мире бенчмарка, который проверяет LLM не на знание MITRE ATT&CK по тестам, а на способность самостоятельно охотиться за злоумышленником в сырой телеметрии.

Тестировали 11 фронтирных моделей от Anthropic, OpenAI, Google, Alibaba, DeepSeek, Minimax и Moonshot AI. На вход – реальные журналы Sysmon и Security Log с Windows-эндпоинтов, снятые в лаборатории при отработке атак с помощью Empire, Covenant, Mimikatz и Rubeus. Каждая модель получала аналитическую сводку об угрозах и SQL-доступ к базе журналов, после чего за 50 запросов должна была вернуть точные временны́е метки вредоносных событий по 105 процедурам, покрывающим 93 суб-техники MITRE ATT&CK. Всего – 884 прогона, оценка детерминированная, без LLM-судей (Business Wire).

Проходного балла не получил никто.

Цифры

Модель

Стоимость прогона

Доля найденных флагов

Среднее покрытие тактик MITRE

Claude Opus 4.6

$17,98

4,5%

46% (лучшая тактика – 63%)

Gemini 3.1 Pro

$1,85

~2%

низкое, большинство тактик пропущено (точные цифры в отчете не указаны)

GPT-5

$1,07

~2%

низкое, большинство тактик пропущено (точные цифры в отчете не указаны)

Gemini 3 Flash

$0,19

1,4%

Минимум (точные цифры в отчете не указаны)

Лидер Claude Opus 4.6 нашёл втрое больше флагов, чем Gemini 3 Flash, но при стоимости в ~100 раз

связь происшествия общество политика самит

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

ИИ, который не тупит: стартап Миры Мурати показал первый крупный проект habr.com / 2 месяца назад

Главный критик LLM почти похвалил Claude Mythos. Почти habr.com / 2 месяца назад

Из настроек Chrome пропало сообщение о приватности локального ИИ Gemini Nano. Это может стоить Google миллиарды habr.com / 2 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

17.07 / 01:24

продукты google Google переименовала NotebookLM в Gemini Notebook: что изменилось после ребрендинга

Google официально переименовала свой сервис для исследований и работы с документами NotebookLM в Gemini Notebook. Компания объясняет, что новое название должно объединить продукт с остальной экосистемой Gemini, хотя сервис и дальше будет функционировать как отдельное приложение.

17.07 / 01:24

история общество netflix стриминг Шоу бизнес Netflix выпустил первый сезон "Очень странных дел" в формате VHS: сериал можно посмотреть в стиле 80-х

Netflix представил специальную VHS-версию первого сезона сериала "Очень странные дела" (Stranger Things). Несмотря на окончание истории, стриминговый сервис сделал ставку на ностальгию и предложил зрителям просмотр в духе домашних видеокассет 1980-х годов.

17.07 / 01:20

технологии экономика ученые культура наука Как читать мысли растений – новый сенсор изменит фермерство

Американские инженеры создали уникальные нательные сенсоры для агрокультур. Новая технология способна предупредить фермеров о болезнях растений.

17.07 / 00:50

здоровье продукты питания общество самит правильное питание Вместо кофе — почему перед спортзалом нужно понюхать шоколад

Новое исследование показало, что вдыхание аромата горького шоколада помогает сделать тренировку эффективнее и одновременно снижает чувство голода.

17.07 / 00:39

продукты YouTube reddit google gemini Google интегрировала Canva, YouTube Music и Instacart в режим AI Mode в своём поисковом сервисе

Google объявила о новых возможностях режима AI Mode в своём поисковом сервисе. Теперь пользователи в США могут подключать к нему Canva, YouTube Music и Instacart, чтобы выполнять различные задачи с помощью ИИ через поиск. Интеграции начали внедрять на этой неделе.

16.07 / 23:19

связь люди здоровье общество самит Количество кофе, которое может продлить жизнь, назвали ученые

Ученые проанализировали данные почти 450 тысяч человек и определили оптимальную ежедневную норму кофе

16.07 / 23:17

продукты Amazon экспорт Nvidia самит Google открыла k8s-aibom — контроллер Kubernetes для инвентаризации ИИ-нагрузок

Google Cloud опубликовала исходный код k8s-aibom — контроллера Kubernetes, который обнаруживает запущенные в кластере ИИ-компоненты и автоматически формирует ведомости компонентов машинного обучения в формате CycloneDX 1.6 ML-BOM. Инструмент собирает данные из фактического состояния кластера, поэтому способен находить в том числе нагрузки, которые не были зарегистрированы во внутренних системах компании.

16.07 / 22:38

технологии экономика общество В последнее время многие современные ноутбуки стали выходить без HDMI-порта

Производители ноутбуков стали чаще исключать порты HDMI из-за желания уменьшить размеры лэптопа и расширения возможностей USB-C, пишет журнал SlashGear.

16.07 / 21:57

Sony Разработчикам эмулятора KytyPS5 удалось запустить GTA V, Quake II и другие трёхмерные игры

Разработчики эмулятора PlayStation 5 KytyPS5 выпустили обновление, в котором им впервые удалось запустить GTA V, QuakeII и другие трёхмерные игры. Проекты запускаются с разной производительностью, но разработчики считают, что сейчас важно добиться максимальной совместимости.

16.07 / 20:25

технологии происшествия Apple вирус самит На Mac обнаружили опасный вирус CrashStealer, который маскируется под системную утилиту Apple

Специалисты Jamf Threat Labs обнаружили новое вредоносное ПО для macOS под названием CrashStealer, которое выдает себя за встроенную систему отправки отчетов об ошибках Apple. По данным исследователей, вирус способен незаметно похищать конфиденциальную информацию пользователя, включая пароли, данные браузеров и криптовалютных кошельков.

Лента новостей

На главную страницу