



Проверка показала: десять ошибок при обновлении брандмауэра стали причиной сбоя в работе оператора Optus
Независимая проверка показала, что сбой в работе австралийского оператора Optus, в результате которого экстренные службы были недоступны 14 часов, был вызван десятью ошибками в ходе обновления брандмауэра. Инцидент произошёл 18 сентября и привёл к двум смертельным случаям: 455 звонков в службы экстренной помощи не дошли до адресатов.
Согласно отчёту, инженеры Optus и подрядчика Nokia допустили десять ошибок при выполнении шестнадцатого по счёту обновления брандмауэра. Предыдущие пятнадцать обновлений прошли без инцидентов. Основной причиной сбоя стали неверные инструкции, переданные Nokia: компания классифицировала обновление как не влияющее на сетевой трафик, и Optus не провела стандартные проверки и оценку рисков.
Отчёт указывает, что инженеры Optus не участвовали во всех совещаниях по подготовке обновления, а при выполнении работ не следовали необходимым инструкциям. После внедрения изменений начались проблемы с маршрутизацией трафика, но и Optus, и Nokia проигнорировали предупреждения системы.
Дополнительной ошибкой стала аналитика на основе агрегированных данных по всей сети. Из-за отсутствия детальных региональных показателей локальную проблему с маршрутизацией звонков на номер 000 обнаружили слишком поздно. В результате Optus узнала о неполадках не от мониторинга сети, а из жалоб клиентов в кол‑центр.
Автор независимого отчёта Керри Шотт отмечает, что основной причиной инцидента стали слабое управление и отсутствие контроля за процессами. По её словам, инженеры уделяли больше внимания скорости выполнения задач, чем правильности, и не обращались за советом к более опытным коллегам.
Кроме того, отчёт обращает внимание на технические сложности перенаправления вызовов в экстренные службы во время сбоев. Разные модели
Читать на habr.com
