Исследование показывает, что LLM готовы помогать в злонамеренном ‘Vibe Coding’
За последние несколько лет большие языковые модели (LLM) привлекли пристальное внимание из-за потенциального злоупотребления в области наступательной кибербезопасности, особенно для создания вредоносного кода.
Недавняя тенденция к «вайб-кодингу» возродила концепцию, достигшую пика в 2000-х годах: «скрипт-кидди» – относительно неквалифицированных злоумышленников с минимальными знаниями, достаточными для воспроизведения или разработки вредоносных атак. Естественно предположить, что когда порог входа снижается, угрозы начинают множиться.
Все коммерческие LLM имеют защитные механизмы против использования в злонамеренных целях, хотя эти меры постоянно подвергаются атакам. Большинство моделей с открытым исходным кодом также выпускаются с аналогичной защитой, обычно для соответствия нормативным требованиям.
Однако сообщества пользователей регулярно дорабатывают официальные релизы моделей для получения более полной функциональности или используют LoRA для обхода ограничений и потенциального получения «нежелательных» результатов.
Хотя большинство онлайн-LLM не позволяют помогать пользователю с вредоносными процессами, существуют «нефильтрованные» инициативы, такие как WhiteRabbitNeo, помогающие исследователям безопасности действовать на равных условиях со своими оппонентами.
В новом исследовании от UNSW Sydney и CSIRO под названием «Хорошие новости для скрипт-кидди? Оценка больших языковых моделей для автоматизированной генерации эксплойтов» представлена первая систематическая оценка того, насколько эффективно эти модели могут создавать работающие эксплойты при правильных запросах.
Исследование сравнивает, как модели работали с оригинальными и модифицированными версиями известных лабораторий уязвимостей, помогая выявить, полагались ли
Читать на habr.com
