Pipeline 編排 中階

資料品質監控

AI 練習作答

請說明資料管道中的資料品質監控方法。

為何需要資料品質

「垃圾進,垃圾出」。管道下游的分析、報表、機器學習模型都依賴高品質輸入資料,資料品質問題往往難以發現且影響決策。

常見資料品質維度

  • 完整性(Completeness):關鍵欄位是否有 NULL?
  • 唯一性(Uniqueness):主鍵是否重複?
  • 及時性(Timeliness):資料是否按時到達?
  • 一致性(Consistency):跨系統資料是否一致?
  • 有效性(Validity):值是否在允許範圍內(如日期格式、枚舉值)?

工具

dbt Tests:在 dbt 模型中宣告測試(not_null、unique、accepted_values、relationships),在每次 dbt run 後自動驗證。

Great Expectations:更進階的 Python 框架,可定義複雜期望(如數值分佈、欄位間關係),並生成資料文件。

監控告警:設定閾值告警(如空值率 > 5%、行數異常下降),出現問題時主動通知。

✦ AI 模擬面試

輸入你的答案,AI 即時分析精準度與改進空間

登入後即可使用 AI 評分