如何在資料 Pipeline 中實作異常偵測？

Question

Accepted Answer

資料異常類型 Volume 異常：資料量突然增減（如每日訂單數從 10,000 掉到 100） Distribution 異常：數值分佈偏離歷史模式（如平均訂單金額突然翻倍） Freshness 異常：資料更新延遲超過預期 SLA Schema 異常：欄位類型變更、新欄位出現或欄位消失 偵測方法 規則式 (Rule-based) 設定靜態閾值，簡單直觀： 行數 < 1000 時觸發警報 NULL 比率 > 5% 時觸發警報 統計式 基於歷史資料的統計特性： Z-score：偵測偏離均值的程度 IQR（四分位距）：偵測離群值 移動平均：偵測趨勢異常 ML 式 使用機器學習模型自動學習正常模式，如 Monte Carlo Data、Anomalo 等工具使用的方法。 工具選擇 | 工具 | 特點 | |------|------| | dbt tests | 輕量，適合 SQL 規則檢查 | | Great Expectations | 豐富的期望函式庫，支援 CI/CD | | Monte Carlo | SaaS，ML 驅動的自動異常偵測 | | Soda Core | 開源，宣告式…

工具	特點
dbt tests	輕量，適合 SQL 規則檢查
Great Expectations	豐富的期望函式庫，支援 CI/CD
Monte Carlo	SaaS，ML 驅動的自動異常偵測
Soda Core	開源，宣告式 SodaCL 語法

資料異常類型

偵測方法

工具選擇

最佳實踐