詳細解釋
歸一化(Normalization)是將特徵縮放到特定範圍(通常是[0,1])的數據預處理技術,確保不同量綱的特徵可比較。
Min-Max歸一化:
- x' = (x - min) / (max - min)
- 範圍:[0,1]或[-1,1]
- 保留原分布形狀
- 對異常值敏感
與標準化對比:
- 歸一化:縮放到固定範圍
- 標準化:均值0方差1
- 選擇取決於算法
應用場景:
- 距離計算:KNN、K-Means
- 神經網絡:輸入層常需
- 圖像處理:像素值歸一化
- 梯度下降:加速收斂
注意事項:
- 訓練集計算:min/max從訓練集
- 測試集應用:用訓練集參數
- 新數據:可能超出[0,1]
變體:
- Max歸一化:除以最大值
- L1/L2歸一化:向量歸一化
實現:
- scikit-learn:MinMaxScaler
- 手動:(x - min) / (max - min)
歸一化是確保特徵可比性的基礎預處理。