Wikimedia сталкивается с беспрецедентной нагрузкой из-за скраперов AI
Фонд Викимедиа, головная организация Википедии и около десятка других краудсорсинговых проектов по сбору знаний, заявил в среду, что потребление полосы пропускания для загрузки мультимедиа с Wikimedia Commons выросло на 50% с января 2024 года. Как написала компания в своем блоге во вторник, причина кроется не в растущем спросе со стороны жаждущих знаний людей, а в автоматизированных, жадных до данных скраперах, стремящихся обучать модели AI.
«Наша инфраструктура создана для того, чтобы выдерживать внезапные всплески трафика от людей во время мероприятий, представляющих большой интерес, но объем трафика, генерируемого ботами-скрейперами, беспрецедентен и представляет собой растущие риски и издержки», — говорится в сообщении.
Wikimedia Commons — это свободно доступное хранилище изображений, видео и аудиофайлов, которые доступны по открытым лицензиям или иным образом находятся в общественном достоянии.
Если копнуть глубже, то Wikimedia сообщает, что почти две трети (65%) самого «дорогого» трафика — то есть самого ресурсоемкого с точки зрения типа потребляемого контента — были получены от ботов. Однако только 35% от общего числа просмотров страниц приходятся на этих ботов. Причина этого несоответствия, по данным Wikimedia, заключается в том, что часто используемый контент остается ближе к пользователю в его кэше, в то время как другой, менее часто используемый контент, хранится дальше в «основном центре обработки данных», обслуживание контента из которого обходится дороже. Это тот тип контента, который обычно ищут боты.
«В то время как читатели склонны сосредотачиваться на конкретных — часто схожих — темах, поисковые роботы склонны «массово читать» большее количество страниц и посещать также менее популярные страницы», — пишет
Читать на habr.com