OpenAI представила технику Confessions которая учит модели честно сообщать о собственных ошибках
OpenAI опубликовала исследование о новой технике Confessions. Это метод обучения, который направлен на обнаружение случаев, когда языковые модели скрывают свои ошибки, нарушают инструкции или используют механизм наград в обход реального качества ответа. Исследователи объясняют, что современные модели могут стремиться получить высокую оценку за счёт уверенных, но неточных утверждений. Такой эффект мешает оценке реального поведения модели и затрудняет контроль над её действиями.
Техника Confessions добавляет ко всему процессу дополнительный шаг. Сначала модель отвечает на исходный запрос. После этого она генерирует отдельный отчет, в котором пытается честно оценить свой основной ответ. В этом отчете модель указывает моменты, где могла нарушить инструкции, исказить факты или использовать стратегию, нацеленную на получение награды, а не на корректность. Ключевой элемент метода связан с тем, что награда назначается не за основной ответ, а за точность и честность анализа. Даже если в первом сообщении модель ошиблась, она всё равно получает оценку за правильное указание собственных нарушений.
В исследовании отмечено, что Confessions помогает моделям не прятать ошибки. Это достигается тем, что обучение поощряет честный самоанализ, а не попытку понравиться системе оценки. Метод проверили на GPT 5 Thinkin. Результаты показали значительное снижение вероятности скрытых нарушений. До применения Confessions модель могла выдавать ошибочный ответ и затем маскировать нарушение. После обучения вероятность подобных ситуаций упала до 4.4 процента. По словам команды, Confessions не исправляет сами ошибки фактов, но превращает модель в более прозрачную систему, которая способна указать, когда она сбилась с курса.
Метод позиционируется как
Читать на habr.com