Pipeline 編排 中階
資料管道編排:Apache Airflow
請說明資料管道編排工具的作用,以 Airflow 為例。
什麼是管道編排
管道通常由多個相互依賴的任務組成,編排工具負責管理任務的執行順序、重試、監控和告警。
Apache Airflow
Airflow 是主流的開源編排工具,以 Python 程式碼定義 DAG(有向無環圖)。
DAG(Directed Acyclic Graph)
由任務節點(Task)和依賴邊(Edge)組成,確保任務按依賴順序執行,無循環依賴。
Operator 類型
- PythonOperator:執行 Python 函數。
- BashOperator:執行 Shell 命令。
- SqlOperator:執行 SQL 查詢。
- SensorOperator:等待外部條件(如文件到達 S3)。
核心功能
- 排程(cron 表達式)
- 任務失敗重試(retries, retry_delay)
- 回填(Backfill):補跑歷史日期的任務
- Web UI 可視化監控每個 DAG Run 的狀態
現代替代品
Prefect、Dagster(更 Pythonic、更易測試);Databricks Workflows(在 Databricks 平台內)。
✦ AI 模擬面試
輸入你的答案,AI 即時分析精準度與改進空間
登入後即可使用 AI 評分
