Spark 效能調優

Question

Spark 效能調優

Accepted Answer

請說明 Spark 常見的效能問題與調優方法。 減少 Shuffle Shuffle 是最大瓶頸。調優方法： 使用 Broadcast Join（當一側表小於 10MB，廣播到所有 Executor 避免 Shuffle）。 預先聚合（Pre-aggregation）再 Join。 調整 spark.sql.shuffle.partitions（預設 200，大資料量應增加）。 處理資料傾斜 使用 explain() 確認是否有傾斜，然後： 加鹽（Salting）：在熱點 Key 加隨機後綴打散，處理後再合併。 AQE（Adaptive Query Execution）：Spark 3.x 的自動傾斜處理，啟用 spark.sql.adaptive.enabled=true。 記憶體管理 調整 spark.executor.memory 和 spark.driver.memory。 增加 spark.memory.fraction（Execution Memory 佔比）。 避免 collect() 大量資料到 Driver。 序列化 使用 Kryo 序列化代替預設 Java 序列化…

Spark 效能調優

1. 減少 Shuffle

2. 處理資料傾斜

3. 記憶體管理

4. 序列化

5. 持久化策略