批次處理 基礎
資料格式:Parquet vs ORC vs CSV
請比較大資料處理常用的檔案格式。
CSV / JSON(列式文字格式)
可讀性高,無 Schema,支援所有工具。
缺點:無壓縮、無統計資訊、讀取整行(即使只需一欄)、效能差。
適用:資料交換、人工檢查、小型資料集。
Parquet(列式二進位格式)
按列儲存(Column-Oriented),查詢只需掃描需要的欄位,大幅減少 I/O。
- 自帶 Schema,支援 Schema Evolution。
- 支援列級壓縮(Snappy、ZSTD、Gzip)和統計資訊(min/max,用於 Predicate Pushdown)。
- 是 Spark、Hive、BigQuery、Redshift 的標準格式。
適用:大規模分析查詢、資料湖。
ORC(Optimized Row Columnar)
類似 Parquet 的列式格式,在 Hive 生態更常見,壓縮率略優於 Parquet 但生態兼容性稍差。
選擇建議
新專案優先選 Parquet(生態最廣)。使用 Hive 為主的系統可考慮 ORC。避免在大型分析管道中使用 CSV。
✦ AI 模擬面試
輸入你的答案,AI 即時分析精準度與改進空間
登入後即可使用 AI 評分
