



Исследователи OpenAI раскрывают скрытые функции моделей ИИ
Исследователи OpenAI утверждают, что открытый Согласно новому исследованию, опубликованному компанией в среду, в моделях искусственного интеллекта скрыты функции, соответствующие неправильным «персонажам».
Рассматривая внутренние представления модели ИИ — числа, которые определяют, как модель ИИ реагирует, и которые часто кажутся людям совершенно непоследовательными, — OpenAI Исследователи смогли обнаружить закономерности, которые проявлялись, когда модель вела себя неправильно.
Исследователи обнаружили один такой признак, который соответствовал токсичному поведению в ответах модели ИИ, то есть модель ИИ давала несбалансированные ответы, например, лгала пользователям или делала безответственные предложения.
Исследователи обнаружили, что, изменяя эту функцию, можно увеличивать или уменьшать токсичность.
Последние исследования OpenAI дают компаниям лучшее понимание факторов, которые могут заставить модели ИИ действовать опасно, и, таким образом, могут помочь им разрабатывать более безопасные модели ИИ. По словам исследователя интерпретируемости OpenAI Дэна Моссинга, OpenAI потенциально может использовать найденные шаблоны для лучшего выявления несоответствий в производственных моделях ИИ.
«Мы надеемся, что изученные нами инструменты, такие как способность сводить сложное явление к простой математической операции, помогут нам понять обобщение моделей в других областях», — сказал Моссинг в интервью TechCrunch.
Исследователи ИИ знают, как улучшить модели ИИ, но, что сбивает с толку, они не до конца понимают, как модели ИИ получают свои ответы – Крис Олах из Anthropic часто замечает, что модели ИИ растут больше, чем строятся. Чтобы решить эту проблему, OpenAI, Google DeepMind и Anthropic вкладывают больше средств в
Читать на hitechexpert.top
