資料倉儲建模 基礎
資料倉儲 vs 資料湖 vs 資料湖倉
請比較資料倉儲、資料湖與資料湖倉的差異。
資料倉儲(Data Warehouse)
儲存已清洗、結構化的資料,專為分析查詢優化(OLAP)。
代表:Snowflake、BigQuery、Redshift
優點:查詢效能高、治理好。缺點:不支援非結構化資料、成本高、靈活性低。
資料湖(Data Lake)
以原始格式(Parquet、CSV、JSON、影片)儲存所有資料,Schema-on-Read(讀取時定義結構)。
代表:S3 + Athena、Azure Data Lake Storage
優點:儲存便宜、保留所有原始資料。缺點:易成「資料沼澤」、治理困難、查詢慢。
資料湖倉(Data Lakehouse)
結合兩者優點:以低成本物件儲存(S3)儲存資料,在上面加入 ACID 交易、Schema 管理、效能優化層。
代表:Delta Lake(Databricks)、Apache Iceberg、Apache Hudi
特點:支援 ACID 交易、Time Travel(查詢歷史版本)、Schema Evolution,同時保有資料湖的低成本。
✦ AI 模擬面試
輸入你的答案,AI 即時分析精準度與改進空間
登入後即可使用 AI 評分
