



Perplexity якобы снова сканирует веб-сайты, которые ему не следует делать.
Согласно новому докладу CloudflareВеб-сканеры, используемые Perplexity для сканирования веб-сайтов, по-видимому, обходят ограничения. В частности, в отчёте требования что боты компании, по всей видимости, «скрыто сканируют» веб-сайты, скрывая свою личность, чтобы обойти файлы robots.txt и брандмауэры.
Robots.txt — это простой файл хостинга веб-сайта, который сообщает поисковым роботам, могут ли они сканировать контент веб-сайта. Официальные боты Perplexity — это «PerplexityBot» и «Perplexity-User». В тестах Cloudflare Perplexity всё ещё мог отображать контент нового, неиндексированного сайта, даже когда эти боты были заблокированы файлом robots.txt. Это поведение также распространялось на веб-сайты с определёнными правилами брандмауэра веб-приложений (WAF), ограничивающими доступ поисковых роботов.
Cloudflare считает, что Perplexity обходит эти препятствия, используя «универсальный браузер, имитирующий Google Chrome на macOS», когда robots.txt запрещает его обычных ботов. В тестах Cloudflare незаявленный поисковый робот компании также смог обходить IP-адреса, не указанные в официальном диапазоне IP-адресов Perplexity, чтобы обходить брандмауэры. Cloudflare утверждает, что Perplexity, по всей видимости, делает то же самое с номерами автономных систем (ASN) — идентификаторами IP-адресов, управляемыми той же компанией, — отмечая, что поисковый робот переключает номера ASN «между десятками тысяч доменов и миллионами запросов в день».
Engadget обратился к Perplexity за комментарием по поводу отчёта Cloudflare. Мы обновим эту статью, если получим ответ.
Актуальная информация с веб-сайтов жизненно важна для компаний, обучающих модели искусственного интеллекта, особенно с учётом того, что такие сервисы, как Perplexity,
Читать на hitechexpert.top