可觀測性 中階

如何設計有效的警報策略?如何避免警報疲勞?

AI 練習作答

警報疲勞的危害

過多或低品質的警報導致 on-call 工程師對警報麻木,真正的緊急問題反而被忽視。

好的警報原則

以症狀為導向,而非原因

  • 差:CPU 使用率 > 80%(原因指標,可能是正常高峰)
  • 好:使用者可見的錯誤率 > 1%(症狀指標,直接影響使用者)

告警要可採取行動:每個警報都應有對應的 Runbook,說明收到警報後要做什麼。沒有明確處理方式的警報只是噪音。

設定合理閾值:避免過於敏感(每次 CPU 短暫尖峰都告警)。使用滾動窗口(如「過去 5 分鐘平均值 > 閾值」)減少誤報。

分層嚴重性

  • P1(Critical):立即中斷服務,需立即響應(如:網站完全不可用)
  • P2(Warning):效能降級,需 1 小時內響應
  • P3(Info):需要關注但不緊急

降低噪音的策略

Alert Grouping:相同根因的多個警報合併為一個通知

Alert Suppression:維護窗口期間暫時靜音警報

依賴感知:資料庫停機後,避免上游服務同時發出大量衍生警報

警報品質評估

定期回顧告警記錄:

  • 警報被靜音的比例有多高?→ 噪音太多
  • 沒有觸發警報的事故有多少?→ 覆蓋不足
  • 警報到響應的平均時間是多少?→ On-call 負擔指標

✦ AI 模擬面試

輸入你的答案,AI 即時分析精準度與改進空間

登入後即可使用 AI 評分