策略梯度

Policy Gradient

直接優化策略的強化學習方法

詳細解釋

策略梯度(Policy Gradient)是直接優化策略的強化學習方法,用梯度上升最大化期望回報。

核心思想:

  • 參數化策略:π(a|s;θ)
  • 目標:最大化期望回報 J(θ)
  • 梯度:∇J = E[∇log π(a|s) · G]
  • 更新:θ ← θ + α∇J

REINFORCE算法:

  • 最基礎的策略梯度
  • 蒙特卡羅估計回報
  • 高方差,需減方差技巧

減方差技巧:

  • 基線:減去平均回報
  • 自舉:用價值函數估計回報
  • 優勢函數:A = Q - V

代表算法:

  • REINFORCE:基礎
  • Actor-Critic:結合值函數
  • A2C/A3C:優勢演員評論家
  • PPO:近端策略優化,穩定高效

與值方法的比較:

  • 策略梯度:直接,連續動作友好
  • 值方法:間接,樣本效率通常更高

應用:

  • 連續控制:機器人、自動駕駛
  • 遊戲:Atari、Dota 2
  • 對話系統:策略優化

強化學習的重要分支。

探索更多AI詞彙

查看所有分類,繼續學習AI知識