離群值

Outlier

與多數數據顯著不同的樣本

詳細解釋

異常值(Outlier)是與數據集中其他觀測值顯著不同的數據點,可能由錯誤、噪聲或真實異常造成,需要識別和適當處理。

檢測方法:

  • 統計方法:
  • Z-score:距離均值>3標準差
  • IQR:超出1.5×IQR範圍
  • Grubbs檢驗
  • 機器學習:
  • Isolation Forest
  • One-Class SVM
  • LOF(局部異常因子)
  • Autoencoder重建誤差
  • 距離方法:
  • KNN距離
  • 聚類異常

處理策略:

  • 刪除:確定錯誤時
  • 轉換:對數變換減少影響
  • 魯棒方法:使用中位數而非均值
  • 標記:作為特徵
  • 單獨分析:研究異常原因

應用場景:

  • 欺詐檢測:異常交易
  • 故障檢測:設備異常
  • 數據質量:清洗錯誤
  • 安全:入侵檢測

注意:

  • 不要自動刪除:可能丟失信息
  • 領域知識:判斷是否真實異常
  • 可視化:箱線圖、散點圖
  • 業務影響:錯誤決策風險

異常值處理需謹慎。

探索更多AI詞彙

查看所有分類,繼續學習AI知識