詳細解釋
不平衡數據(Imbalanced Data)指分類任務中各類別樣本數量差異懸殊的數據集,是機器學習中的常見挑戰。
常見場景:
- 詐騙檢測:正常交易99.9%,詐騙0.1%
- 疾病診斷:健康人遠多於患者
- 製造缺陷:合格品遠多於次品
- 廣告點擊:不點擊遠多於點擊
- 客戶流失:留存客戶多於流失客戶
帶來的問題:
- 模型偏見:偏向多數類,忽視少數類
- 評估誤導:高準確率可能只是預測多數類
- 商業損失:少數類往往是關鍵(如詐騙、疾病)
- 學習困難:少數類樣本不足以學習模式
解決策略:
- 數據層面:
- 過採樣(Oversampling):
- 隨機複製少數類樣本
- SMOTE (合成少數過採樣):合成少數類樣本
- ADASYN (自適應合成採樣):自適應合成
- 欠採樣(Undersampling):減少多數類樣本
- 混合方法:結合過採樣和欠採樣
- 算法層面:
- 類別權重:給予少數類更高懲罰
- 代價敏感學習:調整錯誤分類代價
- 閾值調整:降低分類閾值提高召回率
- 集成方法:隨機森林 (Balanced Random Forest)、EasyEnsemble (簡易集成)
- 評估指標:
處理不平衡數據是許多實際應用的關鍵技能。