OpenAI обнаружила скрытые функции в моделях ИИ, которые приводят к несогласованным ответам
Исследователи из OpenAI заявили, что обнаружили скрытые функции в моделях ИИ, которые соответствуют несогласованным «персонажам», согласно новому исследованию, опубликованному компанией в среду.
Изучив внутренние представления модели ИИ — числа, которые определяют реакцию модели ИИ и которые часто кажутся людям совершенно бессвязными, — исследователи OpenAI смогли выявить закономерности, которые проявлялись, когда модель вела себя неправильно.
Исследователи обнаружили одну такую особенность, которая соответствовала токсичному поведению в ответах модели ИИ. Это означает, что модель ИИ давала несогласованные ответы, например, лгала пользователям или делала безответственные предложения.
Исследователи обнаружили, что они могут повышать или понижать токсичность, регулируя этот параметр.
Последние исследования OpenAI позволяют компании лучше понять факторы, которые могут привести к небезопасному поведению моделей ИИ, и, таким образом, могут помочь в разработке более безопасных моделей ИИ. По словам исследователя OpenAI Дэна Моссинга, потенциально OpenAI может использовать обнаруженные закономерности для более эффективного выявления несоответствий в производственных моделях ИИ.
«Мы надеемся, что инструменты, которые мы освоили, — например, способность свести сложное явление к простой математической операции, — помогут нам понять обобщение моделей и в других областях», — сказал Моссинг в интервью TechCrunch.
Исследователи в области ИИ знают, как улучшать модели ИИ, но, что странно, они не до конца понимают, как модели ИИ приходят к своим выводам. Крис Ола из Anthropic часто отмечает, что модели ИИ чаще развиваются, чем создаются. OpenAI, Google DeepMind и Anthropic вкладывают больше средств в исследования в области интерпретируемости
Читать на habr.com