完整的事故管理流程是什麼？事後檢討 (Post-mortem) 的關鍵要素是什麼？

Question

Accepted Answer

事故管理生命週期 偵測（Detection） 透過監控警報或用戶回報發現問題。MTTD（Mean Time to Detect）越短越好。 響應（Response） On-call 工程師接收告警，評估影響範圍，宣布事故等級（P1/P2/P3）。 協調（Coordination） 指派 Incident Commander（IC）協調整體響應 建立事故通訊頻道（Slack 頻道 / 橋接通話） 對利益相關者進行狀態更新 緩解（Mitigation） 優先恢復服務（Restore service first），再找根因。 常見緩解措施：回滾部署、切換流量、重啟服務、啟用 Feature Flag 關閉問題功能。 解決（Resolution） 服務恢復正常，結束事故，記錄時間線。 事後檢討（Post-mortem） 事故解決後 48-72 小時內進行。 事後檢討的關鍵要素 無責文化（Blameless）： 目標是改善系統，不是追究個人責任。避免使用「誰犯了錯」的語言。 事件時間線：還原事故的完整時間序列，從觸發到恢復。 根本原因分析（RCA）：使用「5 Why」方法找出根本原因，而非停在…