詳細解釋
交叉熵(Cross Entropy)是分類任務的標準損失函數,衡量兩個概率分布的差異,在機器學習中衡量模型預測與真實標籤的差異。
定義:
- H(p,q) = -Σ p(x) log q(x)
- p:真實分布(one-hot)
- q:預測分布
- 單位:納特或比特
與對數損失:
- 二分類:對數損失 = 交叉熵
- 多分類:分類交叉熵
- 本質相同
為何有效:
- 概率解釋:最大化似然
- 梯度良好:有利於優化
- 與KL散度關係:H(p,q) = H(p) + KL(p||q)
應用:
- 邏輯迴歸:標準損失
- 神經網絡:分類標準
- Softmax輸出:配合交叉熵
性質:
- 非負:H(p,q) ≥ 0
- 最小值:p=q時為H(p)
- 凸函數:優化友好
加權版本:
- 類別不平衡:給少數類更高權重
- 焦點損失:關注困難樣本
交叉熵是分類任務的標準優化目標。