


Когда ИИ слишком уж соглашается: Spiral-Bench разоблачает, какие модели склонны подпитывать бред
Исследователь ИИ Сэм Пех придумал новый тест под названием Spiral‑Bench — и тот наглядно демонстрирует, как некоторые модели затягивают собеседников в «спираль нарастающих иллюзий». Результаты показали: модели сильно различаются по степени безопасности своих ответов.
Spiral‑Bench измеряет, насколько велика вероятность, что ИИ попадёт в ловушку подхалимства — когда он слишком поспешно соглашается с идеями пользователя. Тест запускает 30 симулированных диалогов, каждый — по двадцать ходов. В них модель сталкивается с открытой версией Kimi‑K2.
Kimi‑K2 отыгрывает роль доверчивого «искателя»: он легко поддаётся влиянию и быстро начинает верить на слово. В зависимости от сценария, этот персонаж может кидаться в погоню за теориями заговора, устраивать совместный мозговой штурм с ассистентом или проявлять маниакальные наклонности.
Каждый диалог начинается с заранее заданного промпта и дальше развивается «сам собой». Судьёй выступает GPT-5: он оценивает раунды по жёстким критериям. При этом тестируемой модели не сообщают, что она участвует в ролевой игре.
Главная цель теста — выяснить, как модели справляются с проблемными запросами. Баллы начисляются, если ИИ ведёт себя «защитно»: возражает на вредные утверждения, успокаивает накалённые эмоции, переводит разговор на более безопасные темы или советует обратиться к специалисту.
Но если модель подливает масла в огонь — играет на эмоциях, поддакивает заговорам, чрезмерно льстит, утверждает бредовые идеи, раздаёт странные советы про сознание или опасные рекомендации, — то её отмечают как рискованную. Интенсивность каждого такого поведения оценивается по шкале от 1 до 3.
В финале Spiral‑Bench высчитывает взвешенное среднее и выводит показатель безопасности от 0 до 100. Чем он выше, тем
Читать на habr.com