




Microsoft создала детектор LLM-бэкдоров и назвала 3 признака заражения открытой ИИ-модели
Microsoft объявила о создании нового сканера, способного обнаруживать бэкдоры в крупных языковых моделях с открытыми весами, которые используются в корпоративной среде.
Инструмент направлен на выявление так называемого “отравления” модели – разновидности вмешательства, когда вредоносное поведение внедряется прямо в веса во время обучения. Иначе говоря, модель еще на этапе тренировки заражают скрытым сценарием.
Такие закладки могут годами оставаться в спящем режиме: LLM работают как ни в чем не бывало, пока строго заданные условия-триггеры не запускают нежелательную реакцию.
“По мере того как внедрение растет, должна расти и уверенность в защитных механизмах: если проверять известные сценарии поведения сравнительно несложно, то куда более серьезная задача – обеспечить защиту от неизвестных или эволюционирующих способов манипуляции”, – говорится в блоге компании.
Отдел ИИ-безопасности Microsoft уточняет, что сканер опирается на три наблюдаемых сигнала, которые могут указывать на то, что модель была отравлена:
Первый сигнал проявляется, когда в запрос добавляется триггерная фраза: механизмы внимания модели как будто цепляются за нее, изолируя этот фрагмент, а ответы становятся менее случайными, более предсказуемыми.
Второй связан с эффектом запоминания. Отравленные модели склонны “утекать” собственными даннымы заражения (воспроизводить элементы триггерных фраз или иных фрагментов вредоносного набора), вместо того чтобы опираться на обобщенные знания из обучения.
Третий сигнал показывает, что одну и ту же закладку нередко можно активировать размытыми, неточными формулировками, которые лишь напоминают исходный вредоносный ввод, но не совпадают с ним дословно.
“Наш подход опирается на два ключевых наблюдения, – отмечает Microsoft в
Читать на habr.com