Исследователи предлагают OpenAI обучить модели AI на книгах издательства O'Reilly
OpenAI обвиняли многие стороны в обучении своего AI на защищенном авторским правом контенте без разрешения. Теперь в новом документе организации по надзору за AI выдвигаются серьезные обвинения в том, что компания все больше полагалась на непубличные книги, которые она не лицензировала, для обучения более сложных моделей AI.
Модели AI по сути являются сложными предиктивными механизмами. Обученные на большом количестве данных — книги, фильмы, телешоу и т. д. — они изучают закономерности и новые способы экстраполяции из простой подсказки. Когда модель создает эссе о греческой трагедии или изображения в стиле Ghibli, она просто черпает из своих обширных знаний приближение. Она не приходит ни к чему новому.
В то время как ряд лабораторий AI, включая OpenAI, начали использовать данные, сгенерированные AI, для обучения AI, поскольку они исчерпывают реальные источники, немногие полностью отказались от реальных данных. Это, вероятно, связано с тем, что обучение на чисто синтетических данных сопряжено с рисками, такими как ухудшение производительности модели.
В новой статье, подготовленной в рамках проекта AI Disclosures Project, некоммерческой организации, основанной в 2024 году медиамагнатом Тимом О'Рейли и экономистом Иланом Штраусом, делается вывод о том, что OpenAI, вероятно, обучил свою модель GPT-4o на платных книгах из O'Reilly Media. (О'Рейли является генеральным директором O'Reilly Media.)
В ChatGPT GPT-4o является моделью по умолчанию. У O'Reilly нет лицензионного соглашения с OpenAI, говорится в статье.
«GPT-4o, более новая и мощная модель OpenAI, демонстрирует сильное распознавание платного книжного контента O'Reilly по сравнению с более ранней моделью OpenAI GPT-3.5 Turbo», — пишут соавторы статьи. «Напротив, GPT-3.5
Читать на habr.com