Новое исследование показывает, что модели OpenAI «запоминают» защищенный авторским правом контент
Новое исследование, по-видимому, подтверждает утверждения о том, что OpenAI обучала по крайней мере некоторые из своих моделей AI на контенте, защищенном авторским правом. OpenAI втянута в иски, поданные авторами, программистами и другими правообладателями, которые обвиняют компанию в использовании их работ — книг, кодовых баз и т. д. — для разработки своих моделей без разрешения.
OpenAI давно заявляет о защите добросовестного использования, но истцы в этих делах утверждают, что в законе США об авторском праве нет исключения для обучающих данных. Исследование, соавторами которого стали ученые из Вашингтонского университета, Копенгагенского университета и Стэнфорда, предлагает новый метод идентификации обучающих данных, «запомненных» моделями API, например OpenAI.
Модели — это предиктивные машины. Обученные на большом количестве данных, они изучают закономерности — вот как они могут генерировать эссе, фотографии и многое другое. Большинство выходных данных не являются дословными копиями обучающих данных, но из-за того, как модели «обучаются», некоторые неизбежно являются таковыми. Было обнаружено, что модели изображений воспроизводят скриншоты из фильмов, на которых они обучались, в то время как языковые модели были замечены в эффективном плагиате новостных статей.
Соавторы исследовали несколько моделей OpenAI, включая GPT-4 и GPT-3.5, на предмет признаков запоминания, удаляя неожиданно неожиданные слова из фрагментов художественных книг и статей New York Times и заставляя модели пытаться «угадать», какие слова были замаскированы. Если моделям удавалось угадать правильно, то, скорее всего, они запомнили фрагмент во время обучения, заключили соавторы.
Согласно результатам тестов, GPT-4 показала признаки запоминания частей
Читать на habr.com