Модели рассуждений в ИИ: от предварительного обучения к автономному мышлению
Якуб Пачоцки, возглавляющий разработку передовых моделей в OpenAI, говорит, что способность ИИ самостоятельно генерировать знания знаменует собой поворотный момент для бизнеса и исследований.
По словам Пачоцки, так называемые модели рассуждений находятся на пути к автономному генерированию знаний. Он описывает это как форму «рассуждения», хотя она принципиально отличается от того, как мыслят люди.
«Я бы сказал, что это форма рассуждения, но это не значит, что это то же самое, что и человеческое рассуждение», — говорит он Nature.
Эти модели основаны на двухэтапном процессе обучения. Сначала происходит предварительное обучение без учителя, в ходе которого ИИ поглощает огромные объёмы данных и создаёт «модель мира» — своего рода внутреннюю карту реальности, но без какой-либо осознанной структуры или временной шкалы, объясняет Пачоцки.
На втором этапе используется обучение с подкреплением с обратной связью от человека (RLHF), чтобы превратить этот фундамент в полезного помощника. Пачоцки говорит, что этот шаг ещё более важен в новейших моделях мышления. Помимо RLHF, OpenAI также использует более классическое обучение с подкреплением, которое лучше всего подходит для задач с чётко определёнными правильными и неправильными ответами. RLHF может решать более сложные задачи, но оно не так хорошо масштабируется.
Пачоцки сомневается в том, что предварительное обучение и обучение с подкреплением вообще следует рассматривать как отдельные этапы.
«Модели рассуждений не учатся думать в вакууме, они основаны на модели, которая обучилась в ходе предварительного обучения», — говорит он. Его текущая работа сосредоточена на том, как взаимодействуют эти два этапа и как их объединить — на эту идею недавно также указал его начальник Сэм Альтман.
В
Читать на habr.com