GPT-4 изучает логику GPT-2 в исследовании OpenAI: создатели искусственного интеллекта не знают, как он работает
В то время как языковые модели искусственного интеллекта покоряют сферу технологий, исследователи ИИ слабо представляют их работу «под капотом». OpenAI прямо признается: «Языковые модели стали более функциональными и широко распространенными, но мы не понимаем, как они работают».
Компания опубликовала исследование, в котором подробно описывается метод использования языковой модели GPT-4 для объяснений поведения нейронов более старой GPT-2. Задача – добиться интерпретируемости, объяснить, почему нейросети делают то, что делают и создать надежные средства контроля процесса. Забегая вперед, пока это не очень получается, но перспективы возрастут с появлением более совершенных моделей.
Наличие интерпретируемой модели ИИ помогло бы достичь более глобальной цели, которую называют «согласованием ИИ» – гарантии, что системы ведут себя так, как задумано и отражают в работе человеческие ценности.
Пока никому не понятно, как именно отдельные элементы нейронной сети (нейроны) взаимодействуют для получения выходных данных. Эта проблема получила название «черного ящика». Иными словами, не ясно, каким именно образом заданный вопрос превращается в ответ.
Пытаясь заглянуть внутрь «черного ящика», OpenAI использовала GPT-4 для создания и оценки естественно-языковых объяснений поведения нейронов в гораздо менее сложной модели GPT-2. Автоматизируя процесс интерпретации, OpenAI стремится преодолеть ограничения ручной проверки человеком, которая не может охватить системы с миллиардами возможных параметров. Техника OpenAI имеет цель объяснить, какие шаблоны текста вызывают активацию нейрона. Метод состоит из трех шагов:
Необходимо уточнить терминологию:
GPT-4 выявляет в модели конкретные нейроны, цепи, головы внимания и создает удобочитаемое
Читать на itc.ua

