
Исследователи из Microsoft «обратились» к Гарри Поттеру, чтобы заставить ИИ забыть контент, защищенный авторским правом
Дебаты вокруг использования авторского контента для обучения языковых моделей не утихают, и исследователи Microsoft задумались — а можно ли вообще редактировать модели без переучивания, чтобы удалить защищенную авторским правом информацию?
Помогаем
Поможем врагу с билетами на кобзона. Собираем на Mavic для наших защитников
В исследовании из нерецензированной статье на arXiv.org Ронен Элдан из Microsoft Research и Марк Русинович из Microsoft Azure попытались удалить информацию о существовании книг о Гарри Поттере (включая персонажей и сюжеты) из открытого кода языковой модели Meta Llama 2-7B.
«Хотя для предварительного обучения модели понадобилось более 184 тысяч GPU-часов, мы показываем, что примерно за 1 GPU-час тонкой настройки мы фактически стираем способность модели генерировать или воспроизводить контент, связанный с Гарри Поттером», — пишут исследователи Microsoft.
Исследование — очередной важный шаг к адаптивным языковым моделям, способным со временем совершенствоваться в соответствии с потребностями.
«Традиционные модели в основном сосредоточены на добавлении или укреплении знаний путем базовой тонкой настройки, но не обеспечивают простых механизмов «забыть» или «отменить» знания», — говорят авторы.
Так как это сделать? Элдан и Русинович разработали специальную технику, предусматривающую три шага для устранения определенных данных из модели:
Чтобы оценить результат, они проверили способность модели генерировать или обсуждать содержимое Гарри Поттера с помощью 300 автоматически сгенерированных подсказок.
Исследователи обнаружили, что в то время, как оригинальная модель могла легко обсуждать запутанные детали сюжета книг Джоан Роулинг, всего лишь через час тонкой настройки, обновленная — может фактически забыть эти
Читать на itc.ua
