資料品質與可觀測性 基礎

什麼是資料目錄 (Data Catalog)?它解決什麼問題?

AI 練習作答

資料目錄 (Data Catalog)

資料目錄是集中管理企業資料資產元數據(metadata)的系統,讓使用者能夠發現、理解和信任資料。

解決的核心問題

資料孤島:各部門的資料散落各處,難以發現哪些資料存在。

資料理解困難:欄位名稱模糊(如 "status"、"type"),不知道代表什麼意思。

重複建設:不同團隊各自建立相同的資料集或指標,浪費資源且定義不一致。

合規風險:無法追蹤哪些表包含個人敏感資料(PII)。

主要功能

功能 說明
資料發現 搜尋並找到所需的資料集或欄位
業務詞彙表 統一定義業務術語,消除歧義
資料血緣 視覺化資料流向與依賴關係
資料品質分數 顯示各資料集的品質評估結果
敏感資料標記 標記 PII、財務等敏感資料的位置

常見工具

  • 開源:Apache Atlas、Amundsen、DataHub
  • 雲端原生:AWS Glue Data Catalog、Google Dataplex
  • 商業:Alation、Collibra

✦ AI 模擬面試

輸入你的答案,AI 即時分析精準度與改進空間

登入後即可使用 AI 評分