Неквалифицированный системный администратор 20 лет назад на три часа обрушил Amazon.com из-за опечатки
Издание Register рассказало историю о том, как 20 лет назад неквалифицированный системный администратор на три часа обрушил сайт Amazon.com из‑за опечатки в файле конфигурации системы резервного копирования.
Бывший сотрудник компании под именем Кен более 20 лет назад получил работу системным администратором Linux на Amazon.com. Но, по его словам, был «совершенно неквалифицированным» для этой должности.
Ранее Кен работал системным администратором Solaris, и этот опыт позволил ему пройти собеседование в Amazon. Он наспех изучил азы Linux, получил работу и вскоре обнаружил, что среда Red Hat Enterprise Linux, существовавшая в то время, сильно отличалась от Solaris. Несмотря на его неопытность, в Amazon поручили Кену выполнить обновление рабочего приложения для резервного копирования на ленточные накопители.
«Я потратил месяцы на планирование и тестирование, потому что после этого обновления изменились файлы конфигурации, и моей команде нужно было создать новые и установить их вместе с обновлением. Я создал эти файлы и провёл все необходимые тесты. Казалось, всё работает нормально, и настал день, когда мы нажали кнопку. Несколько часов всё работало как задумано. Мы сидели и смотрели ещё несколько часов после обновления, всё работало отлично, поэтому мы решили, что работа сделана отлично, и пошли домой», — рассказал Кен.
А потом, примерно в 7 вечера, пейджер Кена «начал орать». Через несколько минут Кен присоединился к телефонной конференции, на которой очень и очень высокопоставленные люди, включая тогдашнего генерального директора Джеффа Безоса, хотели узнать, почему весь сайт Amazon.com упал. «Многие считали это серьёзным инцидентом», — сказал Кен.
В конце концов Кен и его коллеги заметили, что это именно основная база данных
Читать на habr.com