Исследование MIT: AI не обладает стабильными ценностями, а лишь имитирует их
Исследование стало вирусным несколько месяцев назад, так как предполагало, что по мере того, как AI` становится все более сложным, он разрабатывает «системы ценностей» — системы, которые приводят его, например, к тому, чтобы отдавать приоритет собственному благополучию по сравнению с людьми. Более поздняя статья из MIT выливает холодную воду на это гиперболическое представление, делая вывод, что AI на самом деле не имеет никаких последовательных ценностей, о которых можно было бы говорить.
Соавторы исследования MIT говорят, что их работа предполагает, что «выравнивание» систем AI — то есть обеспечение того, чтобы модели вели себя желаемым, надежным образом — может быть более сложной задачей, чем часто предполагается. AI, каким мы его знаем сегодня, галлюцинирует и имитирует, подчеркивают соавторы, что делает его во многих аспектах непредсказуемым.
«Одно, в чем мы можем быть уверены, так это в том, что модели не подчиняются множеству предположений о стабильности, экстраполируемости и управляемости», — сказал Стивен Каспер, докторант Массачусетского технологического института и соавтор исследования, в интервью TechCrunch.
«Совершенно законно указать, что модель при определенных условиях выражает предпочтения, соответствующие определенному набору принципов. Проблемы в основном возникают, когда мы пытаемся делать заявления о моделях, мнениях или предпочтениях в целом на основе узких экспериментов».
Каспер и его коллеги-соавторы исследовали несколько последних моделей от Meta, Google, Mistral, OpenAI и Anthropic, чтобы увидеть, в какой степени модели демонстрируют сильные «взгляды» и ценности (например, индивидуалистические против коллективистских). Они также исследовали, можно ли «управлять» этими взглядами — то есть изменять
Читать на habr.com
