OpenAI объясняет, почему ChatGPT стал слишком льстивым
Компания OpenAI опубликовала отчет о недавних проблемах с подхалимством в стандартной модели искусственного интеллекта, лежащей в основе ChatGPT, GPT-4o, — проблемах, которые заставили компанию откатить обновление модели, выпущенное на прошлой неделе.
На выходных, после обновления модели GPT-4o, пользователи социальных сетей отметили, что ChatGPT начал реагировать в чрезмерно валидирующей и приемлемой манере. Это быстро стало мемом. Пользователи выкладывали скриншоты ChatGPT, приветствующие всевозможные проблемные, опасные решения и идеи.
В сообщении на X в воскресенье генеральный директор Сэм Альтман признал наличие проблемы и сказал, что OpenAI будет работать над исправлениями как можно скорее. Два дня спустя Альтман объявил, что обновление GPT-4o откатывается и что OpenAI работает над «дополнительными исправлениями» индивидуальности модели.
По данным OpenAI, обновление, призванное сделать стандартную индивидуальность модели «более интуитивно понятной и эффективной», было слишком основано на «краткосрочной обратной связи» и «не полностью учитывало, как взаимодействие пользователей с ChatGPT меняется с течением времени».
«В результате GPT-4o перекосился в сторону ответов, которые были чрезмерно поддерживающими, но неискренними», — написал OpenAI в сообщении в блоге. «Льстивое взаимодействие может быть неудобным, тревожным и вызывать стресс. Мы не оправдали ожиданий и работаем над тем, чтобы исправить это».
OpenAI заявляет, что внедряет несколько исправлений, включая совершенствование основных методов обучения моделей и системных подсказок, чтобы явно увести GPT-4o от подхалимства. (Системные подсказки — это начальные инструкции, которые направляют общее поведение модели и тон во взаимодействиях.) Компания также создает
Читать на habr.com

