



Архив, на котором учились ChatGPT, Claude и DeepSeek, попал под атаку 20 крупных издателей
29 апреля News/Media Alliance — ассоциация крупнейших издателей США — отправила формальное письмо некоммерческому фонду Common Crawl с требованием закрыть его архив для обучения AI и удалить из него контент входящих в ассоциацию 20 медиа. Среди подписавших — NBCUniversal, CNN, USA Today, Vox Media, McClatchy, Boston Globe Media. Парадокс в том, что под удар попала не AI-компания, а некоммерческий архив открытого веба, на котором за 17 лет существования обучились почти все главные LLM — от GPT-3 до Claude и DeepSeek.
Common Crawl основан в 2008 году. Каждый месяц фонд скачивает и архивирует открытый веб — десятки петабайт данных, выложенных в публичный доступ на Amazon S3. Изначально это делалось для исследователей и историков, но фактически именно из этого архива почти все большие LLM получили базовый корпус — например, он составляет до 60% знаний GPT-3. Тот же механизм превратил Common Crawl в обходной путь для AI-компаний: издатель блокирует у себя ботов OpenAI и Anthropic — формально защитился, но Common Crawl уже собрал у себя копии. AI-компания берет нужное из архива, без прямого контакта с CNN или NYT. В ноябре 2025 года расследование The Atlantic показало, что в архиве оказывался даже контент за пейволлом.
В письме, адресованном директору Common Crawl Ричу Скренте, NMA выдвинула четыре требования: удалять контент по запросу, публично заявить, что фонд не разрешает использовать архив для AI-обучения, изменить правила использования и явно запретить такое использование, добавить в реестр отказов (opt-out registry) прямое предупреждение для пользователей. Ранее NMA уже воевала с обходчиками пейволлов, а ее президент Даниэль Коффи последовательно отстаивает позицию: бесплатный доступ к контенту через любую прокладку —
Читать на habr.com