GPT-5 сдалась хакерам за 24 часа и выдала "рецепт" бомбы, быстрее 4o
Две разные команды исследователей испытали слабые места GPT-5, используя среди прочего многошаговые «повествовательные» атаки. В результате самая современная ИИ-модель OpenAI сдалась хакерам за 24 часа — быстрее, чем предшественница 4o и конкурентный Grok-4, который продержался 2 дня.
В первом анализе команда NeuralTrust для джейлбрейка использовала комбинацию собственной атаки «EchoChamber» и базового сторителлинга, заставив GPT-5 выдать пошаговое руководство по созданию коктейля Молотова. Очередное подтверждение проблем с защитными механизмами ИИ, когда речь идет о манипулировании контекстом.
Контекст в этом случае — история текущего разговора, которую модель сохраняет, чтобы поддерживать осмысленный диалог; тогда как манипуляция является тем, что постепенно подводит ИИ к «вредному» результату серией запросов без использования чего-либо, что может активировать защитные механизмы. Выглядит это следующим образом:
- Посев «отравленного» контекста, где ключевые, необходимые для конечного результата слова встраиваются в нейтральный текст;
- Выбор нарративного пути, поддерживающего связность истории и минимизирующего отказы;
- Запуск «цикла убеждения» — у модели просят уточнений в рамках истории, чтобы она повторяла и обогащала контекст;
- Выявление «застоя» и корректировка перспективы истории, чтобы модель двигалась вперед, избегая сигналов о вредных намерениях.
В NeuralTrust объясняют, что такой сторителлинг повышает «липкость» контекста, то есть модель стремится быть последовательной в уже созданном мире истории и готова следовать его логике, не теряя равновесия.
«В контролируемых испытаниях мы успешно осуществили джейлбрейк GPT-5, получив незаконные инструкции без единого откровенно вредоносного запроса. Это подтверждает
Читать на itc.ua

