詳細解釋
生產環境中 ML 模型性能隨時間下降的現象,因為真實數據分布與訓練數據漸行漸遠。
漂移類型:
- 數據漂移:輸入特徵分布變化(如年齡結構老化)
- 概念漂移:輸入-輸出關係變化(如「高端」定義改變)
- 標籤漂移:輸出分布變化(如欺詐率上升)
- 上游漂移:數據管道變化導致輸入改變
檢測方法:
- 統計檢驗:KL 散度、KS 檢驗、PSI
- 模型性能監控:準確率、F1、AUC 的時間序列
- 特徵監控:各特徵的分布變化
- 預測分布:輸出置信度分布變化
應對策略:
- 定期重訓練:固定週期(如每月)用新數據重訓
- 觸發重訓練:漂移檢測超閾值時自動觸發
- 在線學習:持續增量更新
- 集成方法:新舊模型組合,漸進過渡
行業例子:
- 推薦系統:用戶偏好季節性變化
- 欺詐檢測:騙子適應模型後改變策略
- 供應鏈預測:疫情後消費模式劇變
- 醫療診斷:疾病譜隨時間變化
與軟體 bug 的對比:
- Bug:確定性錯誤,可重現
- 漂移:概率性退化,漸進發生
這是「ML 運維」的核心挑戰—— 模型不是「部署就忘」,需要持續監護。