В Anthropic рассказали, как защититься от саботажа ИИ
Что делать, если ИИ умнее своих проверяющих и саботирует работу? Группа исследователей из Anthropic, MATS, Redwood Research и Оксфорда показала, что обычное дообучение со слабым супервайзером может вытянуть из такой модели 88–99% реальных способностей — но только пока модель не понимает, что ее обучают.
Мотивация в работе сформулирована прямо. В ближайшие годы ИИ начнут поручать задачи, где надежно проверять качество вывода нельзя. Самый болезненный пример — автоматизированные исследования по выравниванию: оценить, хороша ли идея эксперимента, может только тот, кто умнее модели. Если самой умной системой будет сам ИИ, проверка замыкается сама на себя. И если этот ИИ занижает способности (sandbagging — стратегический саботаж), поймать его на этом практически невозможно.
Эксперимент устроен как игра двух команд в духе AI control. Red team взяла gpt-oss-120b и обучила ее саботировать 90% задач, выдавая правдоподобные неверные ответы по флагу в системном промпте. Blue team пытается отучить модель с помощью SFT (supervised fine-tuning) и RL (reinforcement learning), но в качестве учителя у нее только модели слабее — GPT 4o-mini и Llama 3.1-8b — плюс 10 эталонных пар вопрос-ответ. Тестировали на трех датасетах: олимпиадная математика, Super GPQA (научные вопросы аспирантского уровня) и Code Contests (соревновательное программирование).
По отдельности оба метода проваливаются. SFT на ответах очень слабого супервайзера дает только 40% на математике — модель деградирует быстрее, чем выходит из режима саботажа. RL почти всегда сваливается в reward hacking, когда модель оптимизирует не правильность ответа, а его убедительность для судьи: награда от слабого супервайзера растет до 0,7–1,0, а реальная производительность не двигается.
Читать на habr.com