可靠性與 SRE 中階
完整的事故管理流程是什麼?事後檢討 (Post-mortem) 的關鍵要素是什麼?
事故管理生命週期
1. 偵測(Detection) 透過監控警報或用戶回報發現問題。MTTD(Mean Time to Detect)越短越好。
2. 響應(Response) On-call 工程師接收告警,評估影響範圍,宣布事故等級(P1/P2/P3)。
3. 協調(Coordination)
- 指派 Incident Commander(IC)協調整體響應
- 建立事故通訊頻道(Slack 頻道 / 橋接通話)
- 對利益相關者進行狀態更新
4. 緩解(Mitigation) 優先恢復服務(Restore service first),再找根因。 常見緩解措施:回滾部署、切換流量、重啟服務、啟用 Feature Flag 關閉問題功能。
5. 解決(Resolution) 服務恢復正常,結束事故,記錄時間線。
6. 事後檢討(Post-mortem) 事故解決後 48-72 小時內進行。
事後檢討的關鍵要素
無責文化(Blameless): 目標是改善系統,不是追究個人責任。避免使用「誰犯了錯」的語言。
事件時間線:還原事故的完整時間序列,從觸發到恢復。
根本原因分析(RCA):使用「5 Why」方法找出根本原因,而非停在表面症狀。
行動項目(Action Items): 每個根本原因都應有對應的改善措施,指定負責人和截止日期。
指標:
- MTTD(Mean Time to Detect):偵測時間
- MTTR(Mean Time to Recover):恢復時間
✦ AI 模擬面試
輸入你的答案,AI 即時分析精準度與改進空間
登入後即可使用 AI 評分
