🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

2初級訓練與優化

不平衡數據

Imbalanced Data

類別分布不均的訓練數據

詳細解釋

不平衡數據（Imbalanced Data）指分類任務中各類別樣本數量差異懸殊的數據集，是機器學習中的常見挑戰。

常見場景：

詐騙檢測：正常交易99.9%，詐騙0.1%
疾病診斷：健康人遠多於患者
製造缺陷：合格品遠多於次品
廣告點擊：不點擊遠多於點擊
客戶流失：留存客戶多於流失客戶

帶來的問題：

模型偏見：偏向多數類，忽視少數類
評估誤導：高準確率可能只是預測多數類
商業損失：少數類往往是關鍵（如詐騙、疾病）
學習困難：少數類樣本不足以學習模式

解決策略：

數據層面：

過採樣（Oversampling）：
隨機複製少數類樣本
SMOTE (合成少數過採樣)：合成少數類樣本
ADASYN (自適應合成採樣)：自適應合成
欠採樣（Undersampling）：減少多數類樣本
混合方法：結合過採樣和欠採樣

算法層面：

類別權重：給予少數類更高懲罰
代價敏感學習：調整錯誤分類代價
閾值調整：降低分類閾值提高召回率
集成方法：隨機森林 (Balanced Random Forest)、EasyEnsemble (簡易集成)

評估指標：

避免單純準確率
使用精確率、召回率、F1分數
AUC-ROC、AUC-PR
混淆矩陣分析

處理不平衡數據是許多實際應用的關鍵技能。

相關詞彙

過擬合 (過度擬合 / 過適)2

模型過度擬合訓練數據而喪失泛化能力

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙