資料品質與可觀測性 進階

資料可觀測性的五大支柱是什麼?如何建立完整的監控體系?

AI 練習作答

資料可觀測性 (Data Observability)

由 Monte Carlo 提出的框架,將軟體 SRE 的可觀測性概念應用於資料系統。目標是在終端使用者發現問題之前,工程團隊已能主動偵測並解決資料問題。

五大支柱

1. 新鮮度 (Freshness) 資料是否按時更新?

  • 監控:最後更新時間 vs SLA
  • 警報:資料超過 X 小時未更新

2. 分佈 (Distribution) 資料的數值範圍和分佈是否正常?

  • 監控:min/max/mean/null率的歷史趨勢
  • 警報:指標超出正常範圍

3. 資料量 (Volume) 資料的行數是否在預期範圍內?

  • 監控:每日/每小時的行數趨勢
  • 警報:行數低於或高於歷史基準

4. 綱要 (Schema) 資料的結構是否發生未預期的變更?

  • 監控:欄位的新增/刪除/類型變更
  • 警報:Schema 變更事件

5. 血緣 (Lineage) 資料問題是否影響了下游系統?

  • 監控:跨表依賴關係的健康狀態
  • 警報:上游異常自動通知下游負責人

建立監控體系的步驟

  1. 定義 SLA:明確每個關鍵資料集的新鮮度要求
  2. 設置基準:基於歷史資料建立正常範圍基線
  3. 配置警報:定義觸發條件與通知渠道(Slack、PagerDuty)
  4. 建立 Runbook:每種異常類型對應標準處理流程
  5. 定期回顧:根據誤報/漏報率調整閾值

工具生態

  • 端到端平台:Monte Carlo、Bigeye、Anomalo
  • 開源方案:Soda Core + Airflow + Grafana
  • dbt Cloud:內建的模型健康監控

✦ AI 模擬面試

輸入你的答案,AI 即時分析精準度與改進空間

登入後即可使用 AI 評分