詳細解釋
特徵選擇(Feature Selection)是從原始特徵中選擇最相關子集的過程,減少維度,提高模型性能,減少過擬合,加快訓練。
方法類型:
- 過濾法(Filter):
- 統計檢驗:卡方檢驗、互信息
- 相關係數:與目標變量相關性
- 獨立於模型
- 包裝法(Wrapper):
- 遞歸特徵消除(RFE)
- 前向/後向選擇
- 基於模型性能
- 嵌入法(Embedded):
- L1正則化:自動稀疏
- 樹模型:特徵重要性
- 模型內建
特徵重要性:
- 基於模型:
- 樹模型:分裂增益
- 線性模型:權重絕對值
- 置換重要性
- SHAP:博弈論特徵貢獻
應用:
- 高維數據:基因表達、文本
- 可解釋性:減少特徵數
- 效率:減少計算
- 噪聲去除:剔除無關特徵
注意事項:
- 數據洩漏:選擇要在訓練集上
- 多重共線性:相關特徵處理
- 領域知識:結合專家意見
特徵選擇是提升模型質量的重要步驟。