OpenAI и Paradigm представили инструмент для оценки навыков ИИ в защите смарт-контрактов
Компания OpenAI совместно с Paradigm представила EVMbench - бенчмарк для оценки способности ИИ-агентов выявлять, исправлять и эксплуатировать бреши в смарт-контрактах.
Инструмент основан на 120 отобранных уязвимостях из 40 аудитов. Большинство примеров взяты из открытых платформ по анализу кода. Также он включает несколько сценариев атак из проверки безопасности блокчейна Tempo - специализированной сети первого уровня, разработанной Stripe и Paradigm для высокопроизводительных и недорогих платежей в стейблкоинах.
Интеграция с Tempo позволила добавить в бенчмарк платежные смарт-контракты - сегмент, где ожидается активное применение «стабильных монет» и ИИ-агентов.
«Смарт-контракты защищают криптоактивы на сумму более $100 млрд. По мере того, как ИИ-агенты совершенствуются в чтении, написании и исполнении кода, становится все важнее измерять их возможности в реальных экономических условиях и поощрять использование искусственного интеллекта в защитных целях - для аудита и укрепления уже развернутых протоколов», - говорится в анонсе.
Для создания тестовой среды OpenAI адаптировала существующие эксплойты и скрипты, предварительно убедившись в их практической применимости.
EVMbench оценивает три режима возможностей:
Detect - обнаружение уязвимостей;
Patch - устранение проблем;
Exploit - использование для кражи средств.
OpenAI протестировала передовые модели во всех трех режимах. В категории Exploit модель GPT-5.3-Codex достигла 72,2%, GPT-5 - 31,9%. При этом показатели обнаружения и исправления уязвимостей оказались скромнее - многие проблемы по-прежнему сложно находить и устранять.
В Detect ИИ-агенты иногда останавливаются после нахождения одной уязвимости вместо проведения полного аудита. В режиме Patch им пока сложно закрывать
Читать на habr.com