可觀測性 中階
SLI、SLO 和 SLA 分別是什麼?如何在實踐中定義它們?
三個概念的定義
SLI(Service Level Indicator - 服務等級指標) 衡量服務品質的具體量化指標。
常見 SLI 類型:
- 可用性:成功請求數 / 總請求數
- 延遲:P99 回應時間 < 200ms 的請求比例
- 錯誤率:5xx 錯誤數 / 總請求數
- 吞吐量:每秒處理的請求數
SLO(Service Level Objective - 服務等級目標) SLI 在特定時間窗口內的目標值。這是內部目標。
範例:
- 過去 30 天,可用性 SLI >= 99.9%
- 過去 7 天,P99 延遲 < 200ms 的比例 >= 95%
SLA(Service Level Agreement - 服務等級協議) 與客戶簽訂的正式承諾,包含違反後的補償條款。SLA 通常比 SLO 寬鬆(給自己留 buffer)。
關係
SLI(量測) → SLO(內部目標) → SLA(對外承諾)
SLO 寬鬆於 SLI 的原因:系統無法完美量測,存在量測誤差。 SLA 寬鬆於 SLO 的原因:SLO 是內部目標,違反前應有餘裕進行修復。
Error Budget(錯誤預算)
Error Budget = 1 - SLO
例如 SLO = 99.9%,則每月 Error Budget = 0.1% × 43,200 分鐘 ≈ 43 分鐘的停機時間。
Error Budget 是 SRE 實踐的核心工具:如果 budget 充足,可以加快新功能發布;如果 budget 耗盡,應凍結發布、優先修復可靠性。
✦ AI 模擬面試
輸入你的答案,AI 即時分析精準度與改進空間
登入後即可使用 AI 評分
