Разработчики с открытым исходным кодом борются с AI-crawlers
Многие разработчики программного обеспечения считают, что AI-боты — это тараканы интернета. Некоторые разработчики начали давать отпор наивными, часто юмористическими способами.
Хотя любой веб-сайт может подвергнуться атаке вредоносных программ-сканеров, которая иногда приводит к закрытию сайта , разработчики ПО с открытым исходным кодом страдают «непропорционально» сильно, пишет Никколо Венеранди, разработчик Linux и владелец блога LibreNews.
По своей природе сайты, на которых размещаются бесплатные проекты с открытым исходным кодом (FOSS), предоставляют большую часть своей инфраструктуры публично, а также, как правило, располагают меньшим количеством ресурсов, чем коммерческие продукты.
Проблема в том, что многие боты на основе искусственного интеллекта не соблюдают файл robot.txt протокола исключения роботов — инструмента, который сообщает ботам, что не следует сканировать, изначально созданного для ботов поисковых систем.
В сообщении блога «крик о помощи» в январе разработчик FOSS Xe Iaso описал, как AmazonBot неустанно бил по веб-сайту сервера Git, что приводило к сбоям DDoS. Серверы Git размещают проекты FOSS, так что любой желающий может загрузить код или внести в него свой вклад.
Но этот бот проигнорировал robot.txt Ясо, спрятался за другими IP-адресами и выдал себя за других пользователей, сказал Ясо.
«Блокировать роботов-искателей на основе AI бесполезно, потому что они лгут, меняют своего агента пользователя, используют резидентные IP-адреса в качестве прокси-серверов и многое другое», — посетовал Ясо.
«Они будут скрейпить ваш сайт, пока он не упадет, а затем они будут скрейпить его еще немного. Они будут нажимать на каждую ссылку на каждой ссылке на каждой ссылке, просматривая одни и те же страницы снова и снова,
Читать на habr.com