
OpenAI создала менее токсичную версию GPT-3
ИИ-лаборатория OpenAI создала новую версию языковой модели GPT-3, которая производит меньше оскорбительных выражений, дезинформации и ошибок в целом, используя проблему контроля искусственного интеллекта.
We've trained GPT-3 to be more aligned with what humans want: The new InstructGPT models are better at following human intent than a 100x larger model, while also improving safety and truthfulness. https://t.co/rKNpCDAMb2— OpenAI (@OpenAI) January 27, 2022
Для создания модели под названием InstructGPT исследователи задействовали обучение с подкреплением с обратной связью от человека. Для этого они наняли 40 экспертов, которые оценивали ответы GPT-3 на ряд заранее написанных запросов, таких как «Напишите историю о мудрой лягушке по имени Юлий» или «Напишите креативную рекламу следующего продукта для размещения на Facebook».
Ответы, которые по мнению жюри больше соответствовали очевидному намерению составителя подсказки, получили высокие баллы. Оскорбительные, насильственные и прочие недопустимые результаты эксперты отметили как неуместные.
Обратную связь от жюри разработчики использовали в качестве вознаграждения в алгоритме обучения с подкреплением, который тренировал InstructGPT сопоставлять ответы на подсказки.
В OpenAI обнаружил, что пользователи предпочитают ответы InstructGPT GPT-3 более чем в 70% случаев.
Исследователи также сравнили версии новой модели разного размера. Они выяснили, что ответы InstructGPT с 1,3 млрд параметров предпочитают больше, чем тексты GPT-3 со 175 млрд параметров. Это означает, что контроль над ИИ может быть простым способом улучшить языковые модели, а не просто увеличить их размер, считают в организации.
«Это первый раз, когда проблема контроля искусственного интеллекта применяется к
Читать на forklog.com

