如何設計有效的警報策略？如何避免警報疲勞？

Question

Accepted Answer

警報疲勞的危害

過多或低品質的警報導致 on-call 工程師對警報麻木，真正的緊急問題反而被忽視。

以症狀為導向，而非原因：

告警要可採取行動：每個警報都應有對應的 Runbook，說明收到警報後要做什麼。沒有明確處理方式的警報只是噪音。

設定合理閾值：避免過於敏感（每次 CPU 短暫尖峰都告警）。使用滾動窗口（如「過去 5 分鐘平均值 > 閾值」）減少誤報。

分層嚴重性：

Alert Grouping：相同根因的多個警報合併為一個通知

Alert Suppression：維護窗口期間暫時靜音警報

依賴感知：資料庫停機後，避免上游服務同時發出大量衍生警報

定期回顧告警記錄：