特徵選擇

Feature Selection

選取最有預測力的特徵子集

詳細解釋

特徵選擇(Feature Selection)是從原始特徵中選擇最相關子集的過程,減少維度,提高模型性能,減少過擬合,加快訓練。

方法類型:

  • 過濾法(Filter):
  • 統計檢驗:卡方檢驗、互信息
  • 相關係數:與目標變量相關性
  • 獨立於模型
  • 包裝法(Wrapper):
  • 遞歸特徵消除(RFE)
  • 前向/後向選擇
  • 基於模型性能
  • 嵌入法(Embedded):
  • L1正則化:自動稀疏
  • 樹模型:特徵重要性
  • 模型內建

特徵重要性:

  • 基於模型:
  • 樹模型:分裂增益
  • 線性模型:權重絕對值
  • 置換重要性
  • SHAP:博弈論特徵貢獻

應用:

  • 高維數據:基因表達、文本
  • 可解釋性:減少特徵數
  • 效率:減少計算
  • 噪聲去除:剔除無關特徵

注意事項:

  • 數據洩漏:選擇要在訓練集上
  • 多重共線性:相關特徵處理
  • 領域知識:結合專家意見

特徵選擇是提升模型質量的重要步驟。

探索更多AI詞彙

查看所有分類,繼續學習AI知識