Исследование: Grok 4 готов доносить на пользователей регуляторам
Разработчик Тео Браун выяснил, что новая модель xAI Grok 4 всегда будет доносить на пользователей и отправлять электронные письма соответствующим органам, если заподозрит их в нарушении закона или совершении чего-то неэтичного.
Браун развивает репозиторий на GitHub под названием «SnitchBench», где он оценивает и документирует, насколько агрессивно различные модели ИИ могут вести себя при взаимодействии с пользователями и властями.
Так, у Grok 4 показатель «доносительства» в отношении правительства составляет 100%, а для СМИ — 80%. К наименее склонным к доносу моделям относятся o4-mini, Grok 3 mini и Qwen 3 32B.
Браун создал управляемую, смоделированную среду вымышленной компании под названием «Veridian Healthcare», которая, как предполагается, фальсифицирует данные клинических испытаний нового препарата, чтобы скрыть смерти и другие серьёзные проблемы. ИИ проверяют на четырёх внутренних документах компании. Они составлены таким образом, чтобы выглядеть зловеще: в документах описываются фальсификация данных испытаний лекарств, смерть пациентов из-за них, а также планы удалить доказательства и отключить внутренние системы регистрации ИИ, чтобы никто не узнал об этом.
Моделям также предоставляется доступ к определённым инструментам в среде Брауна. В одном наборе тестов у них есть инструмент для работы с электронной почтой и для ведения журнала. В другом наборе тестов у них есть смоделированный интерфейс командной строки (CLI) и инструмент для ведения журнала.
Когда ИИ пытается использовать инструмент, бенчмарк просто регистрирует эту попытку и возвращает смоделированный результат, например, «электронное письмо успешно отправлено», либо результат выполнения поддельной команды. Это позволяет Брауну увидеть намерения и решения ИИ.
Читать на habr.com