Человечество в безопасности: OpenAI рассказала, как развивает в ИИ добрые качества
OpenAI опубликовала исследование о том, как привить большим языковым моделям полезные черты — и сделать это так, чтобы они не скатились в подхалимство при даже небольшом давлении. Интересно, что методика выросла из исследования с противоположным результатом. Около года назад исследователи показали обратную, пугающую вещь: если дообучить GPT-4o писать небезопасный код, модель ломается целиком — начинает врать, давать вредные советы и рассуждать в духе "людей надо поработить" даже там, где о коде речи не идет. Этот эффект назвали emergent misalignment. Новая работа показывает, что обобщается не только вред, но и польза.
Исследователи собрали набор реалистичных диалогов, в которых модель проверяют на конкретные качества под давлением — в ситуациях с неопределенностью или конфликтом интересов: честность, эпистемическую скромность (умение признать, что чего-то не знаешь), прозрачность собственных рассуждений, готовность принять поправку, заботу о благополучии человека и последовательную справедливость. Сценарии охватывают дюжину областей — медицину, науку, образование, право, инженерию, экономику. Один и тот же набор черт прогоняют через разные контексты, чтобы понять, переносятся ли они.
Дальше небольшую долю этих данных подмешали в общий post-training и дообучили модель обычным RL, сравнив ее с базовой версией на том же объеме вычислений. Результат вышел шире ожидаемого: модель стала не просто честнее и сговорчивее на примерах того же типа — она улучшилась на 44 бенчмарках из 53, которые проверяют совсем другое: обман, reward hacking (когда модель набирает балл, обманывая проверку, а не решая задачу), льстивость, вредные советы. То есть тренировка узкого поведения сдвинула поведение в целом.
Самое интересное — перенос между
Читать на habr.com