詳細解釋
持續追踪生產環境中機器學習模型性能衰退的實踐,確保模型在數據分布變化時及時發現並警報。
漂移類型:
- 數據漂移(Data Drift):輸入特徵分布變化(如消費者年齡結構改變)
- 概念漂移(Concept Drift):輸入-輸出關係變化(如疫情後「通勤」概念改變)
- 標籤漂移(Label Drift):輸出分布變化(如欺詐率上升)
監測指標:
- 統計檢驗:KL 散度、PSI(Population Stability Index)、Wasserstein 距離
- 模型性能:準確率、F1、AUC 的時間序列趨勢
- 業務指標:轉化率、點擊率的異常變動(可能由模型性能導致)
監測系統架構:
- 日誌收集:記錄每個預測的輸入、輸出、時間戳
- 特徵存儲:與訓練數據對比計算漂移
- 警報機制:閾值超標時通知 Slack/PagerDuty
- 儀表板:視覺化趨勢,支持切片分析(按地區、設備類型)
商業工具:
- Arize AI:ML 可觀測性平台
- Fiddler:模型監控和可解釋性
- WhyLabs:輕量級數據漂移檢測
- Evidently AI:開源 ML 監控
應對策略:
- 自動重訓練:漂移檢測觸發新數據重訓練
- 陰影模式:新模型並行運行,比較性能後切換
- 降級策略:模型不可靠時切換到規則基線
這是 MLOps 的核心組件,沒有監控的模型部署如同「盲飛」。