演員-評論家

Actor-Critic

結合策略與價值函數的RL架構

詳細解釋

演員-評論家(Actor-Critic)是結合策略和值函數的RL架構,演員決策,評論家評估並指導。

角色分工:

  • Actor(演員):策略網路,選擇動作
  • Critic(評論家):值函數網路,評估狀態價值
  • 協作:評論家提供基線,減少策略梯度方差

優勢:

  • 單步更新:無需等完整序列
  • 低方差:基線減少策略梯度方差
  • 在線:可實時學習

架構變體:

  • A2C:同步,多環境並行
  • A3C:異步,多線程
  • SAC:軟演員評論家,最大熵
  • TD3:雙延遲深度確定性策略梯度

損失函數:

  • 演員:策略梯度
  • 評論家:TD誤差或MC誤差
  • 聯合或輪流更新

與純策略梯度/純值方法的比較:

  • 結合兩者優勢
  • 更穩定,更快
  • 實現稍複雜

應用:

  • 連續控制:機械臂、無人機
  • 遊戲:各種遊戲AI
  • 組合優化:路由、排程

強化學習的主流架構。

探索更多AI詞彙

查看所有分類,繼續學習AI知識