🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

4高級模型架構

策略梯度

Policy Gradient

直接優化策略的強化學習方法

詳細解釋

策略梯度（Policy Gradient）是直接優化策略的強化學習方法，用梯度上升最大化期望回報。

核心思想：

參數化策略：π(a|s;θ)
目標：最大化期望回報 J(θ)
梯度：∇J = E[∇log π(a|s) · G]
更新：θ ← θ + α∇J

REINFORCE算法：

最基礎的策略梯度
蒙特卡羅估計回報
高方差，需減方差技巧

減方差技巧：

基線：減去平均回報
自舉：用價值函數估計回報
優勢函數：A = Q - V

代表算法：

REINFORCE：基礎
Actor-Critic：結合值函數
A2C/A3C：優勢演員評論家
PPO：近端策略優化，穩定高效

與值方法的比較：

策略梯度：直接，連續動作友好
值方法：間接，樣本效率通常更高

應用：

連續控制：機器人、自動駕駛
遊戲：Atari、Dota 2
對話系統：策略優化

是強化學習的重要分支。

相關詞彙

透過試錯與獎勵機制學習最佳決策的方法

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙