詳細解釋
異常值(Outlier)是與數據集中其他觀測值顯著不同的數據點,可能由錯誤、噪聲或真實異常造成,需要識別和適當處理。
檢測方法:
- 統計方法:
- Z-score:距離均值>3標準差
- IQR:超出1.5×IQR範圍
- Grubbs檢驗
- 機器學習:
- Isolation Forest
- One-Class SVM
- LOF(局部異常因子)
- Autoencoder重建誤差
- 距離方法:
- KNN距離
- 聚類異常
處理策略:
- 刪除:確定錯誤時
- 轉換:對數變換減少影響
- 魯棒方法:使用中位數而非均值
- 標記:作為特徵
- 單獨分析:研究異常原因
應用場景:
- 欺詐檢測:異常交易
- 故障檢測:設備異常
- 數據質量:清洗錯誤
- 安全:入侵檢測
注意:
- 不要自動刪除:可能丟失信息
- 領域知識:判斷是否真實異常
- 可視化:箱線圖、散點圖
- 業務影響:錯誤決策風險
異常值處理需謹慎。