Pipeline 編排 中階

資料管道編排:Apache Airflow

AI 練習作答

請說明資料管道編排工具的作用,以 Airflow 為例。

什麼是管道編排

管道通常由多個相互依賴的任務組成,編排工具負責管理任務的執行順序、重試、監控和告警。

Apache Airflow

Airflow 是主流的開源編排工具,以 Python 程式碼定義 DAG(有向無環圖)。

DAG(Directed Acyclic Graph)

由任務節點(Task)和依賴邊(Edge)組成,確保任務按依賴順序執行,無循環依賴。

Operator 類型

  • PythonOperator:執行 Python 函數。
  • BashOperator:執行 Shell 命令。
  • SqlOperator:執行 SQL 查詢。
  • SensorOperator:等待外部條件(如文件到達 S3)。

核心功能

  • 排程(cron 表達式)
  • 任務失敗重試(retries, retry_delay)
  • 回填(Backfill):補跑歷史日期的任務
  • Web UI 可視化監控每個 DAG Run 的狀態

現代替代品

Prefect、Dagster(更 Pythonic、更易測試);Databricks Workflows(在 Databricks 平台內)。

✦ AI 模擬面試

輸入你的答案,AI 即時分析精準度與改進空間

登入後即可使用 AI 評分