



OpenAI запустила бенчмарк для ИИ-агентов по поиску уязвимостей в экосистеме Ethereum
- Компания представила новый бенчмарк для тестирования ИИ в «экономически значимых средах».
- Лучший результат показала Claude Opus 4.6 с «наградой за обнаружение» $37 824.
- Инструмент создан совместно с Paradigm и OtterSec.
Компания OpenAI объявила о запуске EVMbench — платформы для оценки эффективности ИИ-агентов при работе с уязвимостями смарт-контрактов. Проект реализован в сотрудничестве с инвестиционной компанией Paradigm и фирмой по безопасности OtterSec.
Бенчмарк основан на 120 уязвимостях, отобранных из 40 аудитов смарт-контрактов. Большинство из них выявили в рамках конкурсов с открытым исходным кодом.
Оценка ИИ в экономически значимых средах
В OpenAI отметили, что по мере роста внедрения ИИ-агентов становится критически важным измерять их производительность в средах, где на кону находятся реальные средства.
Представители компании также считают, что необходимо поощрять использование систем ИИ в целях защиты для аудита и усиления развернутых контрактов.
Как отметили разработчики бенчмарка, развитие технологий на базе искусственного интеллекта может повлиять как на злоумышленников, так и на защитников. Они уверены, что возможности ИИ необходимо использовать для противодействия преступной деятельности.
Anthropic научила ИИ-модели искать уязвимости смарт-контрактов и выявила «взломы» на $4,6 млн 02.12.2025 ЧитатьКроме того, компания также ожидает роста платежей в стейблкоинах, совершаемых агентами. Это свидетельствует о том, что спрос на системы безопасности будет повышаться, считают в OpenAI.
Запуск EVMbench происходит на фоне роста потерь в отрасли. В 2025 году злоумышленники похитили криптовалюту на $4 млрд, что превышает показатель предыдущих 12 месяцев.
В OpenAI рассчитывают, что новый стандарт позволит
Читать на incrypted.com