В Cloudflare раскрыли причину получасового глобального сбоя в работе 5 декабря — проблемы в коде на языке Lua
Технический директор Cloudflare (предоставляет услуги CDN, защиты от DDoS‑атак и безопасный доступ к ресурсам и серверам DNS Дейн Кнехт раскрыл причину получасового глобального сбоя в работе сервисов компании, который произошёл 5 декабря 2025 года.
В это время инженеры платформы выполняли запланированную работу по устранению критической уязвимости CVE-2025-55182, которая позволяет выполнить произвольный код на серверных компонентах React 19.0.0/19.1.0/19.1.1/19.2.0. Специалисты обновляли защиту платформы на уровне системы фильтрации трафика WAF (Web Application Firewall) для блокирования вредоносных запросов, код которой написан на языке Lua.
С внедрением в продуктивной среде новой системы защиты что‑то пошло не так. В процессе проведения работ инженеры увеличили размер буфера для проверки трафика на прокси‑серверах с ранее используемого параметра в 128 КБ. Оказалось, что применяемый для тестирования WAF инструментарий компании не поддерживает выставленный новый размер буфера. Так как этот инструментарий не влиял на трафик, то инженерами было принято решение отключить его.
Для выполнения этой операции инженеры Cloudflare воспользовались подсистемой killswitch для быстрого изменения конфигурации и отключения отдельных Lua‑обработчиков на прокси‑серверах без замены правил.
Подобный метод отключения правил периодически применяется для быстрого устранения ошибок и приводит к пропуску выполнения части Lua‑кода. При этом инженеры не учли, что для вызова отключаемого тестового инструментария в Lua‑правилах применялся метод execute, запускающий дополнительный набор правил.
Ранее в Cloudflare режим killswitch никогда не применялся с правилами, имеющими вызов execute, и данная комбинация не тестировалась.
Применение killswitch
Читать на habr.com