資料品質與可觀測性 基礎
什麼是資料目錄 (Data Catalog)?它解決什麼問題?
資料目錄 (Data Catalog)
資料目錄是集中管理企業資料資產元數據(metadata)的系統,讓使用者能夠發現、理解和信任資料。
解決的核心問題
資料孤島:各部門的資料散落各處,難以發現哪些資料存在。
資料理解困難:欄位名稱模糊(如 "status"、"type"),不知道代表什麼意思。
重複建設:不同團隊各自建立相同的資料集或指標,浪費資源且定義不一致。
合規風險:無法追蹤哪些表包含個人敏感資料(PII)。
主要功能
| 功能 | 說明 |
|---|---|
| 資料發現 | 搜尋並找到所需的資料集或欄位 |
| 業務詞彙表 | 統一定義業務術語,消除歧義 |
| 資料血緣 | 視覺化資料流向與依賴關係 |
| 資料品質分數 | 顯示各資料集的品質評估結果 |
| 敏感資料標記 | 標記 PII、財務等敏感資料的位置 |
常見工具
- 開源:Apache Atlas、Amundsen、DataHub
- 雲端原生:AWS Glue Data Catalog、Google Dataplex
- 商業:Alation、Collibra
✦ AI 模擬面試
輸入你的答案,AI 即時分析精準度與改進空間
登入後即可使用 AI 評分
