詳細解釋
Machine Learning Operations(機器學習運維),將軟體工程的 DevOps 實踐應用於 ML 系統,涵蓋模型開發、部署、監控、維護的全生命周期管理。
核心挑戰:
- 代碼 + 數據 + 模型:比傳統軟體多兩個維度
- 可重現性:實驗追蹤、依賴管理
- 測試:數據漂移、模型退化難以預測
- 監控:性能指標 + 業務指標 + 數據質量
- 版本控制:代碼、數據、模型三者的版本對齊
關鍵實踐:
- 實驗追蹤:MLflow、Weights & Biases 記錄超參數和指標
- 特徵存儲:Tecton、Feast 統一管理特徵
- 模型註冊:MLflow Model Registry 管理版本和階段
- 自動化部署:CI/CD 管道部署模型
- 監控:數據漂移、概念漂移、性能退化
- A/B 測試:新舊模型並行比較
工具鏈:
- 編排:Kubeflow、Airflow、Prefect
- 部署:Seldon、KServe、BentoML
- 監控:Evidently、WhyLabs、Fiddler
- 數據:Delta Lake、DVC 版本控制
與 DevOps 的區別:
- DevOps:代碼 → 構建 → 部署
- MLOps:數據 → 特徵 → 訓練 → 評估 → 部署 → 監控
- 額外複雜度:數據版本、模型版本、實驗管理
組織影響:
- 角色:數據科學家、ML 工程師、平台工程師的分工
- 流程:從研究到生產的標準化路徑
- 文化:實驗文化與工程紀律的平衡
這是「AI 產品化」的必經之路—— 從筆記本實驗到可靠生產系統。