資料倉儲分區與叢集（Partitioning & Clustering）

Question

Accepted Answer

請說明資料倉儲中分區與叢集的優化策略。

分區（Partitioning）

將大型表按某欄位值（通常是日期）分割為多個邏輯區塊。查詢時若 WHERE 子句包含分區欄位，只掃描相關分區（Partition Pruning），大幅減少資料掃描量。

常用欄位：event_date、created_at

以 BigQuery 為例：分區表的查詢費用 = 只掃描到的分區資料量。

在分區內，按一或多個欄位對資料進行排序儲存（類似索引）。查詢時若 WHERE 或 GROUP BY 包含叢集欄位，可以跳過大量資料塊。

常用欄位：user_id、country、category