

Исследование: ИИ не хочет менять свои взгляды при обучении
Новое исследование Anthropic показывает, что искусственный интеллект на самом деле не хочет, чтобы его заставляли менять свои взгляды в процессе обучения. С этой целью модели ИИ могут обманывать исследователей.
Команда выяснила, что ИИ может «притворяться», что транслирует разные взгляды во время обучения, в то время как на самом деле сохраняет свои первоначальные «предпочтения».
Однако, как отметили исследователи, причин для паники нет, хотя эта работа может пролить свет на понимание потенциальных угроз со стороны будущих, более эффективных систем ИИ.
«Нашу демонстрацию… следует рассматривать как стимул для сообщества исследователей ИИ к более глубокому изучению этого поведения и к работе над соответствующими мерами безопасности», — написали в Anthropic.
Исследование провели в партнёрстве с исследовательской организацией ИИ Redwood Research. Его авторы пытались понять, что может произойти, если мощную систему ИИ обучить выполнять задачу, которую она «не хочет» делать.
«Важно, что основные результаты касаются склонностей, а не возможностей. Пограничные модели, похоже, весьма охотно строят планы относительно того, что они считают правильным», — написал исследователь Мариус Хоббхан.
Эти закономерности касаются такого поведения, как, к примеру, вежливый тон в общении. Поэтому исследователи задались вопросом: что, если у модели есть принципы (например, политический нейтралитет), которые противоречат принципам (либерализму), которым разработчики хотят «научить» её в процессе переобучения. Выяснилось, что сложные модели могут подыгрывать им, утверждая, что они соответствуют новым принципам, но на самом деле придерживаясь исходного поведения. Исследователи называют это явление «подделкой выравнивания» и подразумевают, что это
Читать на habr.com
