資料品質與可觀測性 進階
資料可觀測性的五大支柱是什麼?如何建立完整的監控體系?
資料可觀測性 (Data Observability)
由 Monte Carlo 提出的框架,將軟體 SRE 的可觀測性概念應用於資料系統。目標是在終端使用者發現問題之前,工程團隊已能主動偵測並解決資料問題。
五大支柱
1. 新鮮度 (Freshness) 資料是否按時更新?
- 監控:最後更新時間 vs SLA
- 警報:資料超過 X 小時未更新
2. 分佈 (Distribution) 資料的數值範圍和分佈是否正常?
- 監控:min/max/mean/null率的歷史趨勢
- 警報:指標超出正常範圍
3. 資料量 (Volume) 資料的行數是否在預期範圍內?
- 監控:每日/每小時的行數趨勢
- 警報:行數低於或高於歷史基準
4. 綱要 (Schema) 資料的結構是否發生未預期的變更?
- 監控:欄位的新增/刪除/類型變更
- 警報:Schema 變更事件
5. 血緣 (Lineage) 資料問題是否影響了下游系統?
- 監控:跨表依賴關係的健康狀態
- 警報:上游異常自動通知下游負責人
建立監控體系的步驟
- 定義 SLA:明確每個關鍵資料集的新鮮度要求
- 設置基準:基於歷史資料建立正常範圍基線
- 配置警報:定義觸發條件與通知渠道(Slack、PagerDuty)
- 建立 Runbook:每種異常類型對應標準處理流程
- 定期回顧:根據誤報/漏報率調整閾值
工具生態
- 端到端平台:Monte Carlo、Bigeye、Anomalo
- 開源方案:Soda Core + Airflow + Grafana
- dbt Cloud:內建的模型健康監控
✦ AI 模擬面試
輸入你的答案,AI 即時分析精準度與改進空間
登入後即可使用 AI 評分
