Об этом же в других СМИ

habr.com / 1 месяц назад

Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил новый бенчмарк Agent Arena

habr.com / 1 месяц назад

ИИ-агент из Купертино: новая Siri от Apple работает на Google Gemini и знает о пользователе почти все

habr.com / 1 месяц назад

Из ИИ-агентов выходят хорошие программисты, но плохие биологи. Anthropic объясняет почему

habr.com / 1 месяц назад

Вышел Kimi Work — ИИ-агент, который работает без сна

habr.com / 1 месяц назад

Вышел SWE-Marathon: бенчмарк, где агенты часами пишут код — и почти никто не доходит до финиша

Больше по теме

30.05.2026 - 20:32 / habr.com

Защиту ИИ-агентов от prompt injection выбирают по красивым цифрам. Почему в реальности эти цифры врут?

Исследователи из Ноттингемского университета Акиндойин Акинреле и Шрейанк Гауда показали, что выбирать детектор атак на ИИ-агентов по красивым цифрам из бенчмарков — плохая идея. Они прогнали лексические, семантические и трансформерные модели через четыре разных сценария атак prompt injection (внедрение вредоносных инструкций в текст, который модель должна просто обработать как данные) и обнаружили: ни одна модель не выигрывает везде. Какой детектор лучший — зависит от того, на чем его тестировать.

Объясним на пальцах, почему обычные метрики обманчивы. Любой детектор присваивает каждому запросу оценку риска — число от низкого к высокому. Метрики вроде ROC-AUC и macro-F1 проверяют по сути одно: получают ли атаки оценку в среднем выше, чем безобидные запросы. Обычно да — и цифры выходят красивые. Но в реальной работе ИИ-агента это среднее не важно. Там важно, чтобы детектор не стал часто делать ложные блокировки.

Безобидных запросов в реальном трафике большинство, поэтому даже пара процентов ложных блокировок навредит сервису — пользователи упрутся в стену на обычных запросах. Авторы измерили работу детекторов именно в таком режиме: при условии "блокируй не больше 1% (а потом 5% и 10%) безобидного трафика" — сколько атак детектор вообще поймает? И тут выяснилось, что многие атаки получают оценку лишь чуть выше безобидных запросов: формально ранжированы верно, но лежат ниже указанной черты, и детектор их пропускает. Модели-лидеры по обычным метрикам в этом режиме резко проседали.

Дальше начались сюрпризы. На сценарии, где безобидные запросы специально написаны так, чтобы выглядеть как атаки, древний TF-IDF — простой подсчет частот слов без какого-либо понимания смысла — обошел и нейросети, и трансформеры с показателем около

промышленность бюджет runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Microsoft хотела сделать людей «зависимыми» от ИИ-агента Scout — а CEO отрекся от стратегии своих вице-президентов habr.com / 1 месяц назад

Claude Code, но опенсорсный: вышел ИИ-агент Kimi Code CLI habr.com / 1 месяц назад

Open-source агент Hermes со 175 тыс звезд на GitHub обзавелся официальным десктоп-клиентом habr.com / 1 месяц назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

22.07 / 00:25

здоровье общество самит психология психика Фразы, которые произносит только искренне любящий муж

Мужчина, который искренне уважает свою жену, обычно говорит о ней 7 приятных вещей.

22.07 / 00:18

общество Meta Threads вводит новые функции родительского контроля: что нужно знать пользователям

Компания Meta объявила о запуске функции Parental Supervision в социальной сети Threads. Она станет доступной в США уже на следующей неделе и позволит родителям и опекунам контролировать использование платформы подростками через сервис Family Center. Нововведение расширяет возможности уже существующих Teen Accounts, которые автоматически имеют повышенный уровень защиты.

21.07 / 23:24

люди алкоголь общество самит мозг 5 привычек людей, которые не умеют расслабляться без алкоголя

Ловушка дофамина: что на самом деле происходит с мозгом, когда вы глушите усталость алкоголем.

21.07 / 23:24

продукты общество человек врачи сон Продукты, которые могут испортить сон, назвали врачи

Даже полезные на первый взгляд продукты, съеденные вечером, могут нарушить сон, вызвать ночные пробуждения и ухудшить самочувствие.

21.07 / 22:06

люди ученые наука история общество Снимки на орбите: как прошел первый рентген человека в космосе

Главным неудобством в невесомости стало правильное позиционирование тела. Фиксировать человека без гравитации оказалось затруднительно.

21.07 / 21:53

технологии Apple история самит журналист Apple готовит крупнейший iPhone в истории: юбилейная модель может получить почти 7-дюймовый экран

О новой разработке сообщил известный китайский инсайдер Digital Chat Station. Пока речь идет лишь о внутреннем прототипе, поэтому окончательные характеристики устройства могут измениться до официальной презентации.

21.07 / 20:35

технологии Nvidia общество Обновление Nvidia App позволит некоторым игрокам записывать игровой процесс со скоростью 240 кадров в секунду

Nvidia выпустила версию 11.0.8 приложения Nvidia App. Обновление добавляет возможность записи видео через ShadowPlay с частотой 240 кадров в секунду, новые опции отображения в панели управления, а также поддержку функций DLSS Override и «Оптимальные настройки» (Optimal Settings) для большого списка игр.

21.07 / 20:35

технологии общество предприятия жертва стартап Уязвимость в Zoom для Windows 11 позволяет хакерам удалённо захватить учётную запись жертвы

Zoom выпустила экстренное обновление безопасности после раскрытия информации о критической уязвимости в своих приложениях для Windows. Хотя компания не предоставила технических подробностей об этой ошибке, она подтвердила, что успешная её эксплуатация может позволить неавторизованному злоумышленнику захватить контроль над учётной записью через интернет.

21.07 / 20:05

технологии люди Apple журналист Нет денег на iPhone или Mac? — Apple даст их в лизинг: Марк Гурман сообщил о скором запуске платформы Apple Upgrade

Для многих людей принципиально важно обладать новеньким iPhone или MacBook, но с каждым годом это становится все дороже. Вскоре после того, как Apple подняла цены на многие свои гаджеты и намекнула на дальнейший рост, компания готовится предоставить покупателям новый способ приобретения своих товаров.

21.07 / 19:57

продукты продукты питания общество отдых отпуск Опасный шведский стол – от чего лучше отказаться утром

Отдых по системе «все включено» манит изобилием блюд. Однако диетолог предупреждает об опасности некоторых утренних продуктов.

Лента новостей

На главную страницу