資料品質與可觀測性 中階
如何在資料 Pipeline 中實作異常偵測?
資料異常類型
Volume 異常:資料量突然增減(如每日訂單數從 10,000 掉到 100)
Distribution 異常:數值分佈偏離歷史模式(如平均訂單金額突然翻倍)
Freshness 異常:資料更新延遲超過預期 SLA
Schema 異常:欄位類型變更、新欄位出現或欄位消失
偵測方法
規則式 (Rule-based) 設定靜態閾值,簡單直觀:
- 行數 < 1000 時觸發警報
- NULL 比率 > 5% 時觸發警報
統計式 基於歷史資料的統計特性:
- Z-score:偵測偏離均值的程度
- IQR(四分位距):偵測離群值
- 移動平均:偵測趨勢異常
ML 式 使用機器學習模型自動學習正常模式,如 Monte Carlo Data、Anomalo 等工具使用的方法。
工具選擇
| 工具 | 特點 |
|---|---|
| dbt tests | 輕量,適合 SQL 規則檢查 |
| Great Expectations | 豐富的期望函式庫,支援 CI/CD |
| Monte Carlo | SaaS,ML 驅動的自動異常偵測 |
| Soda Core | 開源,宣告式 SodaCL 語法 |
最佳實踐
在 Pipeline 各個關鍵節點設置品質閘門(Quality Gates),確保異常資料不會流向下游,避免「垃圾進、垃圾出」的問題。
✦ AI 模擬面試
輸入你的答案,AI 即時分析精準度與改進空間
登入後即可使用 AI 評分
