標準化

Standardization

將數據轉為零均值單位方差

詳細解釋

標準化(Standardization)是將特徵轉換為均值0、標準差1的分佈的預處理技術,也稱Z-score標準化,是許多算法的預設假設。

Z-score標準化:

  • x' = (x - μ) / σ
  • μ:特徵均值
  • σ:特徵標準差
  • 結果:均值0,標準差1

特性:

  • 分布:不改變原分布形狀
  • 異常值:比歸一化更魯棒
  • 負值:允許負值
  • 單位:消除量綱影響

與歸一化對比:

  • 標準化:均值0方差1,無界
  • 歸一化:範圍[0,1],有界
  • 選擇:取決於算法需求

必須標準化的算法:

  • 邏輯迴歸:梯度下降更快
  • SVM:距離計算
  • 神經網絡:輸入標準化加速
  • PCA:基於協方差
  • 線性迴歸:數值穩定

可以不用的算法:

  • 決策樹:基於閾值
  • 隨機森林:樹模型
  • 梯度提升樹:基於排序

實現:

  • scikit-learn:StandardScaler
  • 手動:(x - mean) / std

注意事項:

  • 從訓練集計算統計量
  • 應用到測試集
  • 類別變量不需要

標準化是機器學習預處理的標準實踐。

探索更多AI詞彙

查看所有分類,繼續學習AI知識