Cloudflare представила Robotcop для соблюдения политик robots.txt и блокировки ботов
Cloudflare внедрила в панель управления аудита ИИ новую функцию, которую шутливо назвала Robotcop. Она позволит проверить, какие ИИ-службы соблюдают политики robots.txt, а какие нет, а затем программно применять эти политики.
Панель аудита предоставляет сводку количества запросов, разбитых по ботам, а также позволяет фильтровать их по категориям, в том числе веб-сканеров.
Robots.txt — это текстовый файл, который размещается на домене и реализует протокол исключения сканеров. Он ограничивает доступ поисковым ботов к отдельным элементам и контенту сайта.
В Cloudflare отметили, что с появлением генеративного ИИ соответствующие службы начали сканировать Интернет, чтобы собирать данные для обучения моделей. После этого многие создатели и издатели контента начали использовать robots.txt для обновления политик, включая в них не только веб-сканеров, но и ботов ИИ.
Вот пример политики robots.txt одного из ведущих новостных сайтов. Он ограничивает доступ ChatGPT, Anthropic AI, Google Gemini или ByteDance Bytespider к сканированию контента:
Теперь платформа аудита Cloudflare позволит клиентам отследить, как поставщики услуг ИИ соблюдают политики robots.txt, а также обязать их следовать этим политикам на сетевом уровне.
Функция аудита анализирует файлы robots.txt, а затем сопоставляет их правила с трафиком ботов ИИ на конкретном ресурсе. Она выдаёт сводную таблицу с количеством запросов и нарушений для каждого бота, а также демонстрирует политики для каждого из них во всплывающей подсказке. Ботов можно фильтровать по нарушениям.
В разделе «Самые популярные пути» будет отмечаться трафик, нарушающий политику сайта.
Robotcop будет включать опцию «Применить правила robots.txt», которая автоматически переводит правила для ботов в расширенное
Читать на habr.com