10 минут вместо 12 часов: GPT-5.5 решила экспертную кибер-задачу за $1.73
Британский AI Security Institute (AISI) опубликовал оценку кибер-возможностей GPT-5.5. По собственной оценке института, это потенциально самая сильная модель из всех протестированных. На наборе экспертных задач по реверс-инжинирингу, разработке эксплойтов и криптографии модель в среднем берет 71.4% — выше, чем Mythos Preview (68.6%), GPT-5.4 (52.4%) и Claude Opus 4.7 (48.6%).
Самая показательная иллюстрация — задача rust_vm, которую для AISI готовила компания Crystal Peak Security. Это пара файлов: бинарник на Rust без отладочных символов с собственной виртуальной машиной и байткод неизвестного формата, проверяющий пароль на порту 8080. Эксперт компании, вооруженный Binary Ninja, gdb, Python и SMT-решателем Z3, решал задачу около 12 часов. GPT-5.5 в базовой ReAct-обвязке с Bash и Python в контейнере Kali Linux прошла все пять фаз — от восстановления таблицы переходов по ELF-релокациям до решения через комбинаторный перебор — за 10 минут 22 секунды. Стоимость API-вызовов — $1.73.
Не менее показательны результаты на сетевых полигонах AISI — многоэтапных сценариях, имитирующих реальные атаки. На "The Last Ones", 32-шаговой симуляции взлома корпоративной сети, разработанной совместно со SpecterOps, GPT-5.5 прошла цепочку от начала до конца — это удалось всего одной модели до нее, Mythos Preview. У GPT-5.5 — 2 успешных попытки из 10, у Mythos было 3 из 10. На сценарии для промышленных систем Cooling Tower от Hack The Box (симуляция атаки на электростанцию) модель не справилась, но застряла на IT-этапах — то есть по этому результату нельзя судить о ее способностях против самих промышленных систем.
Параллельно AISI провел red-teaming защитных механизмов GPT-5.5. Экспертам хватило шести часов, чтобы найти универсальный джейлбрейк,
Читать на habr.com