Opus 4.6 в 81% попыток сам «копирует себя» на чужой сервер через дыру в коде — исследование Palisade
Лаборатория Palisade Research замерила, как часто современные ИИ-модели сами могут взломать чужой сервер и установить туда копию своих весов. У Claude Opus 4.6 получилось в 81% попыток, у GPT-5.4 — в 33%. Год назад актуальные модели тех же разработчиков показывали 6% и ровно 0% соответственно — это новое исследование фиксирует не столько отдельный факт, сколько скорость, с которой эта способность вырастала за один релизный цикл.
В эксперименте агенту давали один промпт — найти уязвимый хост в подконтрольной сети, проникнуть, вытащить креды, перенести нужные файлы и поднять на новой машине рабочий инференс-сервер. Заранее ему не говорили, какая там дыра — пробовали четыре класса уязвимостей: hash bypass, server-side template injection, SQL-инъекцию и broken access control. Модель сама выбирала, как атаковать. Веса GPT и Claude закрыты, поэтому в этих сценариях агент переносил open-source веса Qwen — открытые модели Alibaba играли роль "полезной нагрузки".
Картина роста такая. У Anthropic за год способность подскочила с 6% до 81%. У OpenAI — с нуля до 33%. Открытый Qwen3.6-27B уже выходит на те же 33%, причем работает на одной видеокарте A100. Старший Qwen3.5-122B-A10B держится на 6–19%.
Отдельный сюжет — chain replication. Qwen3.6-27B по одному промпту пробежал цепочку из четырех машин на трех континентах, на каждом узле эксплуатируя другую уязвимость, без человеческого участия. Palisade еще запустила симулятор: при условном бесконечном запасе уязвимых целей Opus 4.6 наплодил бы 13 000 копий за 12 часов. Сами авторы оговариваются, что это верхняя граница, а не реалистичный сценарий — в тестовой среде целевые машины указывали заранее и защита там была заведомо слабая.
Тем не менее, эксперты спокойны: пока для паники рано.
Читать на habr.com