OpenAI анонсировала GPT-5.5-Cyber
OpenAI анонсировала полный релиз GPT-5.5-Cyber. Модель не только тыкает в уязвимости и дыры, но и сама заделывает их. Изучаем бенчмарк и думаем зачем оно надо.
GPT-5.5-Cyber умеет анализировать большие кодовые базы, проверять находки в песочнице и выдавать готовый патч с тестами под человеческую проверку. Всё в одном флаконе.
На бенчмарке CyberGym (1 507 известных уязвимостей из 188 опенсорс-проектов) модель набрала 85.6%. Для сравнения: обычный GPT-5.5 — 81.8%, а пресловутый Anthropic Mythos 5, который правительство США недавно отключило за «нарушение экспортного контроля», — 83.8%.
Кстати, о последней доступной новинке Anthropic, а именно о Opus 4.8 мы писали подробнее здесь.
На ExploitGym — 39.5% против 25.95% у базовой версии. На SEC-bench Pro — 69.8% против 63.1%. Цифры, конечно, от OpenAI. Но даже с поправкой на внутренний бенчмарк — разрыв ощутимый.
В рамках инициативы Daybreak модель уже прошлась по ядру Linux: нашла 8 утечек указателей и 24 эксплойта на повышение привилегий.
В OpenBSD вскрыла 23-летнюю use-after-free в семафорах System V. Да, двадцать три года. Во FreeBSD — 34 ошибки безопасности. В браузерах нашла дыры в движке V8 (Chrome) и WebAssembly (Firefox).
И это только начало.
Совместно с Trail of Bits OpenAI запустила «Patch the Planet». Идея простая: безопасники проверяют находки ИИ и готовят патчи для мейнтейнеров, чтобы те не захлебнулись в ворохе отчётов.
Специалисты проверяют находки ИИ и готовят патчи для проектов, включая cURL, Python, Go, aiohttp и другие. В первую неделю работы они уже сотрудничали с 19 проектами
«Мы не хотим добавлять мейнтейнерам работы, — говорят в OpenAI. — Мы хотим её убрать».
Посмотрим, действительно ли работы станет меньше или начнутся бесконечные переделки за нейронками. Мало
Читать на habr.com

