



В Cloudflare раскрыли причину многочасового глобального сбоя в работе — файл конфигурации
В американской компании Cloudflare (предоставляет услуги CDN, защиты от DDoS-атак и безопасный доступ к ресурсам и серверам DNS) раскрыли причину почти пятичасового глобального сбоя в работе своих сервисов. Проблема не в DNS, и не было внешней атаки. Оказалось, что это была ошибка в файле конфигурации системы защиты от ботов, который перед началом инцидента был обновлён инженерами Cloudflare в плановом порядке.
Технический директор Cloudflare Дэн Кнехт пояснил, что сервис «подвёл» своих клиентов и весь Интернет, добавив, что «скрытая ошибка в сервисе, лежащем в основе нашей возможности противодействия ботам, начала давать сбои после внесения нами планового изменения конфигурации... Это не было атакой».
После планового изменения конфигурации возникла скрытая ошибка в сервисе, лежащем в основе системы противодействия ботам, который начал давать сбои. В пресс-службе компании добавили, что сбой возник из-за того, что размер файла конфигурации превысил ожидаемый. Именно эта ситуация привела к сбою в работе программного обеспечения, обрабатывающего трафик ряда сервисов Cloudflare, а также к масштабному ухудшению работы клиентской сети и других сервисов компании.
«Настоящим виновником было обновление прав доступа к базе данных ClickHouse. Это небольшое изменение привело к неожиданному удвоению размера файла функции управления ботами. Этот файл отправляется по глобальной сети Cloudflare каждые несколько минут. Когда системы получили версию с увеличенным размером, строгий внутренний лимит внутри основного прокси‑сервера спровоцировал панику. Эта паника и привела к масштабному шторму 5xx, который наблюдали клиенты», — рассказали в Cloudflare в postmortem по этому инциденту.
Сбой произошёл после изменения в структуре БД, размещённой
Читать на habr.com