



Глава Common Crawl: чат-ботам следует разрешить «читать книги» бесплатно
Исполнительный директор некоммерческой организации Common Crawl Рич Скрента заявил, что модели искусственного интеллекта должны иметь доступ ко всему в интернете. Он считает, что чат-ботам следует разрешить «читать книги» бесплатно. Ранее несколько новостных изданий обратились к Common Crawl с просьбой удалить их статьи, чтобы предотвратить именно такое использование. Организация сообщила, что выполняет эти требования, но исследования показывают обратное.
Более 10 лет Common Crawl собирает данные с миллиардов сайтов, создавая огромный архив. База данных организации исчисляется петабайтами и находится в свободном доступе для исследований. Однако в последние годы OpenAI, Google, Anthropic, Nvidia, Meta*, Amazon и другие компании в сфере ИИ использовали архив Common Crawl для обучения своих больших языковых моделей. В датасеты попали и платные статьи из этой базы данных.
Вероятно, Common Crawl лжёт изданиям о наличии этих статей и скрывает фактическое содержание своих архивов, пишет Atlantic.
В 2012 году основатель организации Гил Эльбаз заявил о необходимости правильного использования базы данных Common Crawl. Принцип добросовестного использования подразумевает, что с данными со всего мира можно делать определённые вещи, и пока люди уважают авторские права на эти данные, всё будет замечательно, добавил Эльбаз.
Common Crawl уверяет, что собирает в интернете «свободно доступный контент» и не переступает через пейволлы. Однако организация брала статьи с крупных новостных сайтов, за которые обычно приходится платить, что позволяло ИИ-компаниям бесплатно обучать свои БЯМ на журналистских материалах.
В 2020 году OpenAI использовала архив Common Crawl для обучения GPT-3, а спустя два года GPT-3,5 стала основой ChatGPT. Многие другие
Читать на habr.com