可靠性與 SRE 中階

完整的事故管理流程是什麼?事後檢討 (Post-mortem) 的關鍵要素是什麼?

AI 練習作答

事故管理生命週期

1. 偵測(Detection) 透過監控警報或用戶回報發現問題。MTTD(Mean Time to Detect)越短越好。

2. 響應(Response) On-call 工程師接收告警,評估影響範圍,宣布事故等級(P1/P2/P3)。

3. 協調(Coordination)

  • 指派 Incident Commander(IC)協調整體響應
  • 建立事故通訊頻道(Slack 頻道 / 橋接通話)
  • 對利益相關者進行狀態更新

4. 緩解(Mitigation) 優先恢復服務(Restore service first),再找根因。 常見緩解措施:回滾部署、切換流量、重啟服務、啟用 Feature Flag 關閉問題功能。

5. 解決(Resolution) 服務恢復正常,結束事故,記錄時間線。

6. 事後檢討(Post-mortem) 事故解決後 48-72 小時內進行。

事後檢討的關鍵要素

無責文化(Blameless): 目標是改善系統,不是追究個人責任。避免使用「誰犯了錯」的語言。

事件時間線:還原事故的完整時間序列,從觸發到恢復。

根本原因分析(RCA):使用「5 Why」方法找出根本原因,而非停在表面症狀。

行動項目(Action Items): 每個根本原因都應有對應的改善措施,指定負責人和截止日期。

指標

  • MTTD(Mean Time to Detect):偵測時間
  • MTTR(Mean Time to Recover):恢復時間

✦ AI 模擬面試

輸入你的答案,AI 即時分析精準度與改進空間

登入後即可使用 AI 評分