資料品質與可觀測性 中階

什麼是資料血緣 (Data Lineage)?如何追蹤它?

AI 練習作答

資料血緣 (Data Lineage)

資料血緣描述資料從來源到目的地的完整流動路徑,包括每個轉換步驟。

為什麼重要

  • 影響分析:修改上游資料表時,能快速識別哪些下游報表或模型會受影響
  • 根因分析:資料異常時,能追溯到底是哪個步驟引入了問題
  • 合規與稽核:GDPR 等法規要求能追蹤個人資料的流向
  • 信任建立:讓資料消費者了解資料來源,提升對資料的信任度

血緣層級

層級 說明 工具
Column-level 追蹤每個欄位的來源 dbt, OpenLineage
Table-level 追蹤表格間的依賴關係 Apache Atlas, Amundsen
Job-level 追蹤 Pipeline 任務的輸入輸出 Airflow, Marquez

實作方式

手動記錄:在 dbt 模型的 YAML 中描述來源與依賴

自動擷取:透過 OpenLineage 標準,讓 Spark、Airflow 自動上報血緣資訊至 Marquez 或 DataHub

範例(dbt): dbt 自動根據 ref() 和 source() 建立模型間的血緣圖,可在 dbt docs 介面中視覺化呈現。

✦ AI 模擬面試

輸入你的答案,AI 即時分析精準度與改進空間

登入後即可使用 AI 評分