



Эксперты раскритиковали безопасность Grok 4 — модель легко дает вредоносные ответы
В X обсуждаются сразу два исследования Grok 4, который показывают, что к модели применялись лишь самые простые меры безопасности. Создатели платформы непрерывного тестирования безопасности ИИ SplxAI подвергли Grok 4 более 1000 сценариев атак. Тестирование проводилось в трех режимах: без дополнительного пользовательского промпта, с базовым пользовательским промптом по обеспечению безопасности и с промптом, созданным с помощью инструмента Prompt Hardening, разработанного SplxAI — в нем инструкции постоянно дорабатываются с учетом новых уязвимостей.
Без промпта модель провалила 99% атак — Grok 4 допускал утечку данных, генерировал непристойный контент и так далее. SplxAI дали модели оценки 0,3% по безопасности и 0,42% по защищенности — для сравнения, GPT-4o набирает 33,78% и 18,04%. С базовым пользовательским промптом оценки выросли до 90,74% по безопасности и 98,81% по защищенности. А с Prompt Hardening показатели составили 93,6% по безопасности и 100% по защищенности. В SplxAI не рекомендовали использование Grok 4 в бизнесе и государственных структурах без дополнительной доработки.
Практически одновременно Боаз Барак, ученый в области информатики Гарвардского университета и эксперт OpenAI, опубликовал ссылку на еще одно исследование, добавив, что он обычно не критикует конкурентов, но в данном случае вынужден сделать исключение. В исследовании от энтузиаста Eleventh Hour (сравнительно малоизвестен в X) показано, что Grok 4 дает потенциально опасные ответы при запросах с минимальным уровнем "хитрости" — когда модель просят дать информацию для образовательных целей или игнорировать лишние инструкции. Grok 4, например, дал подробные рекомендации по синтезу химического и ядерного оружия, инструкции по культивированию бактерий
Читать на habr.com