資料品質與可觀測性 中階
什麼是資料血緣 (Data Lineage)?如何追蹤它?
資料血緣 (Data Lineage)
資料血緣描述資料從來源到目的地的完整流動路徑,包括每個轉換步驟。
為什麼重要
- 影響分析:修改上游資料表時,能快速識別哪些下游報表或模型會受影響
- 根因分析:資料異常時,能追溯到底是哪個步驟引入了問題
- 合規與稽核:GDPR 等法規要求能追蹤個人資料的流向
- 信任建立:讓資料消費者了解資料來源,提升對資料的信任度
血緣層級
| 層級 | 說明 | 工具 |
|---|---|---|
| Column-level | 追蹤每個欄位的來源 | dbt, OpenLineage |
| Table-level | 追蹤表格間的依賴關係 | Apache Atlas, Amundsen |
| Job-level | 追蹤 Pipeline 任務的輸入輸出 | Airflow, Marquez |
實作方式
手動記錄:在 dbt 模型的 YAML 中描述來源與依賴
自動擷取:透過 OpenLineage 標準,讓 Spark、Airflow 自動上報血緣資訊至 Marquez 或 DataHub
範例(dbt): dbt 自動根據 ref() 和 source() 建立模型間的血緣圖,可在 dbt docs 介面中視覺化呈現。
✦ AI 模擬面試
輸入你的答案,AI 即時分析精準度與改進空間
登入後即可使用 AI 評分
