Как менеджер Grafana за вечер собрал ИИ, который сам разбирает ночные сбои — и обучается после каждого
Продакт-менеджер Grafana и мейнтейнер Prometheus Гаутам Вирамачанени 21 апреля рассказал в своем блоге, как за час собрал себе ИИ-помощника, который разбирает аварии в продакшене вместо него. После пяти тренировочных разборов модель начала попадать в диагноз почти без промахов — по оценке автора, ложных срабатываний меньше 10%. Команда быстро перешла на этот инструмент как на основной.
Вирамачанени работает в бэкенд-команде одного из продуктов Grafana и регулярно сидит на ночных дежурствах: если что-то ломается в продакшене, алерт прилетает ему в мессенджер, и дальше нужно лезть в метрики и логи, чтобы понять, какой сервис сбоит и почему. Claude он использовал для этой работы давно — через их собственную CLI-утилиту gcx, которая умеет ходить в Grafana Cloud и доставать оттуда все нужные данные. Проблема была в одном: модель каждый раз начинала разбор с нуля, а уроки прошлых аварий никуда не сохранялись.
Вместо того чтобы городить отдельного агента, Вирамачанени оформил все как "скилл" для Claude Code — обычную папку с инструкциями и подпапками, куда ИИ сам дописывает, что узнал. Внутрь он разложил описание кластеров, типовые запросы к метрикам, чек-листы по конкретным алертам и базу знаний с разборами прошлых аварий. Никакой векторной базы и сложной обвязки — просто файлы на диске, которые можно открыть глазами и отредактировать руками.
Дальше он взял все ночные алерты своей команды за две недели и по очереди прошел каждый вместе с Claude. По этим авариям уже были написаны разборы, так что автор знал правильный ответ и мог направлять модель: подсказывал, где искать, какие метрики смотреть, что значат конкретные симптомы. После каждого разбора Claude сам дописывал свою "тетрадку": новый случай — в папку с инцидентами,
Читать на habr.com