詳細解釋
策略梯度(Policy Gradient)是直接優化策略的強化學習方法,用梯度上升最大化期望回報。
核心思想:
- 參數化策略:π(a|s;θ)
- 目標:最大化期望回報 J(θ)
- 梯度:∇J = E[∇log π(a|s) · G]
- 更新:θ ← θ + α∇J
REINFORCE算法:
- 最基礎的策略梯度
- 蒙特卡羅估計回報
- 高方差,需減方差技巧
減方差技巧:
- 基線:減去平均回報
- 自舉:用價值函數估計回報
- 優勢函數:A = Q - V
代表算法:
- REINFORCE:基礎
- Actor-Critic:結合值函數
- A2C/A3C:優勢演員評論家
- PPO:近端策略優化,穩定高效
與值方法的比較:
- 策略梯度:直接,連續動作友好
- 值方法:間接,樣本效率通常更高
應用:
- 連續控制:機器人、自動駕駛
- 遊戲:Atari、Dota 2
- 對話系統:策略優化
是強化學習的重要分支。