Інцидент — це дані для покращення системи
Якщо після інциденту ви просто “відкотили і забули”, він повториться. Postmortem потрібен, щоб знизити ймовірність повтору і скоротити час відновлення наступного разу.
1) Структура postmortem
- Impact: кого зачепило і яка шкода (час, гроші, репутація).
- Timeline: що сталося по хвилинах (детекція → діагностика → фікс).
- Root cause і contributing factors (процес/люди/система).
- Action items: конкретні, з owner і дедлайном.
2) Action items, які реально працюють
- Автотести/перевірки, які ловлять клас проблеми.
- Алерти під SLO (менше шуму, більше сигналу).
- Runbook: “що перевірити” і “як відкотити” для типових сценаріїв.
3) Без пошуку винних
Фокус на системі: які умови дозволили помилці пройти. Це підвищує відкритість і швидкість навчання команди.
Підсумок
Сильна підтримка — це цикл: інцидент → аналіз → action items → runbooks/алерти → менше інцидентів. Так SLA стає реальністю, а не документом.