Спостережуваність — це не “поставили Grafana”
Мета observability — швидко зрозуміти “що зламалось” і “чому”. Мета SRE — зробити так, щоб це ламалось рідше.
1) SLO і error budget
Домовляємось про рівень сервісу (latency/error rate). Error budget показує, скільки ризику змін ми можемо дозволити.
2) Алерти
- Alert на симптом (падає SLO), а не на “CPU 80%”.
- Дедуп, silence, ескалації.
3) Інцидент‑процес
Runbooks, ролі під час інциденту, постмортем з action items. Без цього команда повторює ті ж помилки.
4) Петля покращень
Стабільність росте, коли інциденти конвертуються у технічні борги, які реально закриваються в roadmap.
Підсумок
DevOps/SRE — це система: SLO → алерти → інциденти → постмортеми → покращення. Так прод стає передбачуваним.