



ИИ Perplexity брал данные даже с сайтов, которые разработчики запретили анализировать
Cloudflare опубликовала исследование, из которого следует: Perplexity AI скрейпила (загружала и анализировала данные) веб-сайты, даже если те четко указали в robots.txt, что автоматический доступ запрещен. Более того, система обходила защиту, меняя user agent (например, выдавая себя за Chrome на macOS) и переадресовывая трафик через различные ASN - "стелс-скрейпинг".
Активность ИИ замечена на десятках тысяч доменов с миллионами запросов ежедневно, а Cloudflare смогла идентифицировать бота с помощью ML-моделей и сигналов сети.
Perplexity - это поисковик на базе ИИ, который пытается быть более умной альтернативой Google, но с уклоном в конверсионный, диалоговый поиск. Он пытается проанализировать найденные результаты и сразу выдать пользователю извлечение, без необходимости переходить по ссылкам. В целом, Google уловил эту тенденцию и добавил собственный Gemini в свой поисковик.
Представитель компании, Jesse Dwyer, заявил, что упрек - это "вброс", а выложенные скриншоты не подтверждают доступ к контенту. Впоследствии он даже сказал, что упомянутый бот не принадлежит Perplexity.
Журналисты Wired и разработчик Robb Knight уже в 2024 году публиковали результаты, что Perplexity игнорировала robots.txt, используя скрытые IP-адреса и сторонних краулеров. CEO компании признал существование таких краулеров, но отказался четко объяснить, прекратят ли их использование.
Файл robots.txt это обычный текстовый файл, в котором описаны страницы, которые не стоит анализировать поисковым и рекламным ботам. Он не имеет никаких механизмов реально помешать проанализировать эти адреса, а скорее предоставляет рекомендации. Таким образом боты "понимают" где находится персональная, или техническая информация, не предназначенная для анализа. Однако
Читать на gagadget.com