金絲雀部署

Canary Deployment

漸進式流量切換

詳細解釋

軟體發布的漸進策略:先將新版本部署給小部分用戶(金絲雀),驗證無問題後再擴展到全部用戶。得名於煤礦中的金絲雀預警毒氣。

流程:

  1. 部署到新版本到 1-5% 用戶/服務器
  2. 監控錯誤率、延遲、業務指標
  3. 若健康,逐步擴展到 10%、50%、100%
  4. 若問題,自動或手動回滾

AI 系統的特殊考量:

  • 模型 A/B 測試:新舊模型並行,比較預測質量
  • 影子模式:新模型處理請求但不返回結果,僅記錄對比
  • 漸進路由:按查詢類型、用戶分群逐步切換
  • 回滾策略:模型回滾比代碼回滾更複雜(數據格式、特徵版本)

工具支持:

  • Kubernetes:原生支持滾動更新、流量分割
  • Istio/Linkerd:服務網格,精細流量控制
  • MLflow Model Registry:模型版本管理和階段轉換
  • 監控:Datadog、Prometheus + Grafana

好處:

  • 降低風險:問題影響有限用戶
  • 即時反饋:生產環境問題快速發現
  • 信心建立:逐步驗證新模型可靠性

挑戰:

  • 狀態管理:數據庫 schema 變化的兼容性
  • 測試覆蓋:金絲雀用戶需能代表整體
  • 延遲問題:部分用戶體驗新舊版本差異

這是「ML Ops」的必備實踐—— 模型部署不是「全有或全無」,而是「小心翼翼」。

探索更多AI詞彙

查看所有分類,繼續學習AI知識