




OpenAI придется раскрыть, как она обучала GPT-модели на пиратских книгах
Федеральный судья Она Ванг в Нью-Йорке обязала OpenAI раскрыть внутренние переписки с юристами о том, почему были удалены два набора данных с пиратскими книгами из теневой библиотеки LibGen. Решение было принято в рамках судебного дела, в котором OpenAI обвиняют в обучении моделей серии GPT на книгах без получения разрешений от их авторов.
Истцы из Authors Guild и группа известных писателей — среди них Джордж Мартин и Джон Гришэм — утверждают, что еще в 2018 году сотрудник OpenAI скачал массив LibGen, из которого собрали два набора Books1 и Books2. Эти наборы, в которых могло быть свыше 100 000 книг, использовали для обучения GPT-3 и GPT-3.5. Затем в 2022 году, за год до первых исков, Books1 и Books2 тихо удалили — в OpenAI утверждают, что датасетами просто перестали пользоваться и они стали не нужными. Судья отмечает, что это вообще единственные обучающие наборы, которые компания когда-либо удаляла.
Когда в ходе раскрытия доказательств авторы попытались выяснить, почему именно эти наборы исчезли, OpenAI начала ссылаться на адвокатскую тайну. Сначала компания допускала обсуждение мотивов удаления и публично писала на судейской электронной карточке, что файлы удалены "из-за неиспользования", но позже заявила, что все причины удаления являются привилегированной информацией и обсуждать их нельзя. Ванг в своем решении подчеркивает, что OpenAI одновременно настаивает на "добросовестности" (то есть отсутствии умысла) и блокирует доступ к документам, по которым можно проверить эту добросовестность, а такие "двойные стандарты" лишают компанию привелегии прикрываться адвокатской тайной.
С учетом этого суд обязал OpenAI выдать целый пласт внутренней документации. В перечень входят уже просмотренные судом письма и сообщения, все
Читать на habr.com