詳細解釋
標準化(Standardization)是將特徵轉換為均值0、標準差1的分佈的預處理技術,也稱Z-score標準化,是許多算法的預設假設。
Z-score標準化:
- x' = (x - μ) / σ
- μ:特徵均值
- σ:特徵標準差
- 結果:均值0,標準差1
特性:
- 分布:不改變原分布形狀
- 異常值:比歸一化更魯棒
- 負值:允許負值
- 單位:消除量綱影響
與歸一化對比:
- 標準化:均值0方差1,無界
- 歸一化:範圍[0,1],有界
- 選擇:取決於算法需求
必須標準化的算法:
- 邏輯迴歸:梯度下降更快
- SVM:距離計算
- 神經網絡:輸入標準化加速
- PCA:基於協方差
- 線性迴歸:數值穩定
可以不用的算法:
- 決策樹:基於閾值
- 隨機森林:樹模型
- 梯度提升樹:基於排序
實現:
- scikit-learn:StandardScaler
- 手動:(x - mean) / std
注意事項:
- 從訓練集計算統計量
- 應用到測試集
- 類別變量不需要
標準化是機器學習預處理的標準實踐。