Підтримка ламається, коли вона тримається на “героях”
Якщо тільки одна людина знає, “де перезапустити”, команда вигорає, а інциденти стають довшими. On‑call має бути системою, а не подвигом.
1) Ротація і відповідальність
- Чіткий графік і backup.
- Окремо: triage (реакція) і engineering (фікс), якщо команда велика.
2) Handover
- Короткий щоденний контекст: що болить, які роботи в процесі.
- Список відомих ризиків і “що перевірити першим”.
3) Runbooks
Кожен критичний алерт має мати 5–10 кроків: де подивитись метрики/логи, як відкотити, кого ескалювати. Це різко скорочує MTTR.
4) Зменшення вигорання
- Менше алерт‑шуму: алерти під SLO, а не під “кожен exception”.
- Postmortem і action items після повторюваних інцидентів.
Підсумок
Сильний on‑call — це ротація, handover і runbooks. Тоді підтримка масштабується без вигорання.