什麼是混沌工程 (Chaos Engineering)？如何在生產環境中安全地實踐它？

Question

Accepted Answer

混沌工程的定義

主動在系統中注入故障，驗證系統的彈性和容錯能力，在真實災難發生之前發現弱點。

由 Netflix 在 2011 年開創，最著名的工具是 Chaos Monkey（隨機終止生產環境的 EC2 實例）。

1. 建立穩定狀態假說：定義系統正常運行的量測指標（如 P99 延遲、錯誤率）

2. 設計實驗：引入真實世界的故障場景

3. 在生產環境中運行（或盡可能接近生產的環境）：Staging 環境無法完全複製生產的複雜度

4. 最小化爆炸半徑：從小範圍開始（先測試 1% 的流量），逐步擴大

5. 自動化持續執行：將混沌實驗整合進 CI/CD，確保每次變更後系統仍然有彈性