批次處理 基礎

資料格式:Parquet vs ORC vs CSV

AI 練習作答

請比較大資料處理常用的檔案格式。

CSV / JSON(列式文字格式)

可讀性高,無 Schema,支援所有工具。

缺點:無壓縮、無統計資訊、讀取整行(即使只需一欄)、效能差。

適用:資料交換、人工檢查、小型資料集。

Parquet(列式二進位格式)

按列儲存(Column-Oriented),查詢只需掃描需要的欄位,大幅減少 I/O。

  • 自帶 Schema,支援 Schema Evolution。
  • 支援列級壓縮(Snappy、ZSTD、Gzip)和統計資訊(min/max,用於 Predicate Pushdown)。
  • 是 Spark、Hive、BigQuery、Redshift 的標準格式。

適用:大規模分析查詢、資料湖。

ORC(Optimized Row Columnar)

類似 Parquet 的列式格式,在 Hive 生態更常見,壓縮率略優於 Parquet 但生態兼容性稍差。

選擇建議

新專案優先選 Parquet(生態最廣)。使用 Hive 為主的系統可考慮 ORC。避免在大型分析管道中使用 CSV。

✦ AI 模擬面試

輸入你的答案,AI 即時分析精準度與改進空間

登入後即可使用 AI 評分