詳細解釋
KL散度(Kullback-Leibler Divergence)是衡量兩個概率分布差異的非對稱指標,表示用一個分布近似另一個分布時的信息損失,在變分推斷和生成模型中廣泛使用。
定義:
- D_KL(P||Q) = Σ p(x) log(p(x)/q(x))
- 非對稱:D_KL(P||Q) ≠ D_KL(Q||P)
- 非負:D_KL ≥ 0,等於0當且僅當P=Q
解釋:
- 額外編碼長度:用Q編碼P的額外比特數
- 信息損失:用Q近似P的信息損失
與交叉熵關係:
- H(P,Q) = H(P) + D_KL(P||Q)
- 交叉熵 = 熵 + KL散度
- 最小化交叉熵 ≡ 最小化KL散度
應用:
- VAE:變分下界包含KL項
- 策略優化:TRPO、PPO
- 變分推斷:近似後驗
- 生成模型:訓練目標
變體:
- JS散度:對稱化版本
- 推進散度:改進數值穩定性
KL散度是機器學習中分布比較的標準工具。