Pipeline 編排 中階
資料品質監控
請說明資料管道中的資料品質監控方法。
為何需要資料品質
「垃圾進,垃圾出」。管道下游的分析、報表、機器學習模型都依賴高品質輸入資料,資料品質問題往往難以發現且影響決策。
常見資料品質維度
- 完整性(Completeness):關鍵欄位是否有 NULL?
- 唯一性(Uniqueness):主鍵是否重複?
- 及時性(Timeliness):資料是否按時到達?
- 一致性(Consistency):跨系統資料是否一致?
- 有效性(Validity):值是否在允許範圍內(如日期格式、枚舉值)?
工具
dbt Tests:在 dbt 模型中宣告測試(not_null、unique、accepted_values、relationships),在每次 dbt run 後自動驗證。
Great Expectations:更進階的 Python 框架,可定義複雜期望(如數值分佈、欄位間關係),並生成資料文件。
監控告警:設定閾值告警(如空值率 > 5%、行數異常下降),出現問題時主動通知。
✦ AI 模擬面試
輸入你的答案,AI 即時分析精準度與改進空間
登入後即可使用 AI 評分
