Engineer Interview Hub

資料品質與可觀測性中階

什麼是資料血緣 (Data Lineage)？如何追蹤它？

AI 練習作答

資料血緣 (Data Lineage)

資料血緣描述資料從來源到目的地的完整流動路徑，包括每個轉換步驟。

為什麼重要

影響分析：修改上游資料表時，能快速識別哪些下游報表或模型會受影響
根因分析：資料異常時，能追溯到底是哪個步驟引入了問題
合規與稽核：GDPR 等法規要求能追蹤個人資料的流向
信任建立：讓資料消費者了解資料來源，提升對資料的信任度

血緣層級

層級	說明	工具
Column-level	追蹤每個欄位的來源	dbt, OpenLineage
Table-level	追蹤表格間的依賴關係	Apache Atlas, Amundsen
Job-level	追蹤 Pipeline 任務的輸入輸出	Airflow, Marquez

實作方式

手動記錄：在 dbt 模型的 YAML 中描述來源與依賴

自動擷取：透過 OpenLineage 標準，讓 Spark、Airflow 自動上報血緣資訊至 Marquez 或 DataHub

範例（dbt）： dbt 自動根據 ref() 和 source() 建立模型間的血緣圖，可在 dbt docs 介面中視覺化呈現。

✦ AI 模擬面試

輸入你的答案，AI 即時分析精準度與改進空間

登入後即可使用 AI 評分

← 上一題

資料品質的六大維度是什麼？

下一題 →

如何在資料 Pipeline 中實作異常偵測？