3中級訓練與優化
He 初始化 (Kaiming 初始化)
He Initialization (Kaiming Initialization)
針對 ReLU (線性整流單元) 設計的權重初始化,方差為 √(2/n_in),使深層網路前向與反向時激活與梯度方差穩定。
詳細解釋
He 初始化(Kaiming He 等,2015)專為使用 ReLU (線性整流單元) 的網路設計。權重從 N(0, √(2/n)) 採樣,n 為該層輸入數(fan_in);因子 2 補償 ReLU 將負值壓為 0 造成的方差縮小,使各層激活與梯度方差在深層中維持穩定,避免 梯度消失 (Vanishing Gradient) 或梯度爆炸。PyTorch (Torch Compile) 預設對 Linear/Conv 的 Kaiming 初始化即此方法。與 ReLU (線性整流單元)、Xavier 初始化、PyTorch (Torch Compile) 相關。