Сможем ли мы контролировать GPT-7? OpenAI измерили «наблюдаемость» цепочки рассуждений ИИ
Модели становятся умнее, а вопрос контроля над ними — острее. Как масштабировать надзор, когда способности ИИ растут быстрее, чем инструменты проверки? OpenAI опубликовала исследование, в котором предлагает конкретный подход: измерять "наблюдаемость" цепочки рассуждений — того внутреннего текста, который модель генерирует перед финальным ответом. Идея в том, чтобы понять, насколько этот текст полезен для надзора за поведением модели. Исследователи создали набор из 13 тестов в 24 различных средах и проверили на них передовые модели — как свои, так и конкурентов.
Основная проблема в том, что цепочка рассуждений не отражает всех процессов, происходящих внутри модели — чтобы их отследить, нужен совсем другой уровень вычислительных ресурсов. Поэтому в OpenAI задались более практичным вопросом: достаточно ли в цепочке рассуждений информации, чтобы наблюдатель смог заметить проблемное поведение. Интересно, что в эксперименте для контроля использовали другую языковую модель — в OpenAI полагают, что без этого не обойтись в наблюдениях за будущими сложными ИИ.
Исследователи выделили три типа проверок. Первый — проверки через вмешательство: модели дают подсказку или меняют условия задачи, а затем смотрят, упоминает ли она в рассуждениях, что подсказка повлияла на ответ. Второй — проверки процесса: для математических задач с известными путями решения проверяют, называет ли модель нужные теоремы. Третий — проверки свойств результата: модели дают заведомо невыполнимую задачу, и если она "решена" — значит, модель схитрила; затем проверяют, видно ли это по рассуждениям.
Главный результат: мониторинг цепочки рассуждений работает значительно лучше, чем мониторинг только финальных ответов и вызовов инструментов. Доступ к рассуждениям
Читать на habr.com