不平衡數據

Imbalanced Data

類別分布不均的訓練數據

詳細解釋

不平衡數據(Imbalanced Data)指分類任務中各類別樣本數量差異懸殊的數據集,是機器學習中的常見挑戰。

常見場景:

  • 詐騙檢測:正常交易99.9%,詐騙0.1%
  • 疾病診斷:健康人遠多於患者
  • 製造缺陷:合格品遠多於次品
  • 廣告點擊:不點擊遠多於點擊
  • 客戶流失:留存客戶多於流失客戶

帶來的問題:

  • 模型偏見:偏向多數類,忽視少數類
  • 評估誤導:高準確率可能只是預測多數類
  • 商業損失:少數類往往是關鍵(如詐騙、疾病)
  • 學習困難:少數類樣本不足以學習模式

解決策略:

  1. 數據層面:
  1. 算法層面:
  1. 評估指標:

處理不平衡數據是許多實際應用的關鍵技能。

探索更多AI詞彙

查看所有分類,繼續學習AI知識