資料品質與可觀測性 中階

如何在資料 Pipeline 中實作異常偵測?

AI 練習作答

資料異常類型

Volume 異常:資料量突然增減(如每日訂單數從 10,000 掉到 100)

Distribution 異常:數值分佈偏離歷史模式(如平均訂單金額突然翻倍)

Freshness 異常:資料更新延遲超過預期 SLA

Schema 異常:欄位類型變更、新欄位出現或欄位消失

偵測方法

規則式 (Rule-based) 設定靜態閾值,簡單直觀:

  • 行數 < 1000 時觸發警報
  • NULL 比率 > 5% 時觸發警報

統計式 基於歷史資料的統計特性:

  • Z-score:偵測偏離均值的程度
  • IQR(四分位距):偵測離群值
  • 移動平均:偵測趨勢異常

ML 式 使用機器學習模型自動學習正常模式,如 Monte Carlo Data、Anomalo 等工具使用的方法。

工具選擇

工具 特點
dbt tests 輕量,適合 SQL 規則檢查
Great Expectations 豐富的期望函式庫,支援 CI/CD
Monte Carlo SaaS,ML 驅動的自動異常偵測
Soda Core 開源,宣告式 SodaCL 語法

最佳實踐

在 Pipeline 各個關鍵節點設置品質閘門(Quality Gates),確保異常資料不會流向下游,避免「垃圾進、垃圾出」的問題。

✦ AI 模擬面試

輸入你的答案,AI 即時分析精準度與改進空間

登入後即可使用 AI 評分