ViAcore

DevOps/Cloud: observability і SRE — SLO, алерти, інциденти і “петля” покращень

Як підтримувати прод без хаосу: SLO/error budget, алерти без шуму, трейсинг, runbooks, постмортеми і системні покращення, які зменшують кількість інцидентів.

6 лип. 2026 р.

Спостережуваність — це не “поставили Grafana”

Мета observability — швидко зрозуміти “що зламалось” і “чому”. Мета SRE — зробити так, щоб це ламалось рідше.

1) SLO і error budget

Домовляємось про рівень сервісу (latency/error rate). Error budget показує, скільки ризику змін ми можемо дозволити.

2) Алерти

Alert на симптом (падає SLO), а не на “CPU 80%”.
Дедуп, silence, ескалації.

3) Інцидент‑процес

Runbooks, ролі під час інциденту, постмортем з action items. Без цього команда повторює ті ж помилки.

4) Петля покращень

Стабільність росте, коли інциденти конвертуються у технічні борги, які реально закриваються в roadmap.

Підсумок

DevOps/SRE — це система: SLO → алерти → інциденти → постмортеми → покращення. Так прод стає передбачуваним.