

Веб-скрапинговые ИИ-боты вызывают сбои в работе научных баз данных и журналов
Автоматизированные программы, собирающие данные для обучения инструментов искусственного интеллекта, перегружают академические веб-сайты. В результате возникают сбои в работе ресурсов.
В феврале владельцы онлайн-хранилища изображений DiscoverLife, содержащего почти 3 млн фотографий разных видов растений и животных, заметили всплеск трафика. Миллионы посещений замедляли работу сайта, а в итоге он и вовсе стал недоступен.
Выяснилось, что причиной тому были так называемые веб-скрапинговые ИИ-боты, которые собирают большие объёмы контента с веб-сайтов. Большая часть трафика ботов поступает с анонимных IP-адресов.
А в BMJ, издателе медицинских журналов со штаб-квартирой в Лондоне, заметили, что трафик ботов на их веб-сайтах превзошёл трафик реальных пользователей. Агрессивное поведение ботов перегрузило серверы издателя и привело к перебоям в обслуживании клиентов, говорит Ян Малвани, главный технический директор BMJ.
Другие издатели сообщают о похожих проблемах. «Мы увидели огромный рост трафика, который называем „плохим бот‑трафиком“», — говорит Джес Кайн, директор британского Highwire Press, интернет‑хостинга, который специализируется на научных публикациях.
«Сейчас это Дикий Запад. Самая большая проблема — это огромный объём запросов на доступ к веб-сайту, который создает нагрузку на системы. Это стоит денег и вызывает сбои у реальных пользователей», — говорит Эндрю Питтс, генеральный директор PSI, компании из Оксфорда, Великобритания, которая предоставляет глобальное хранилище проверенных IP-адресов для научного сообщества коммуникаций.
Те, кто управляет затронутыми сайтами, работают над способами блокировки ботов и уменьшения сбоев. Но это непростая задача, особенно для организаций с ограниченными ресурсами. «Эти небольшие
Читать на habr.com

