詳細解釋
演員-評論家(Actor-Critic)是結合策略和值函數的RL架構,演員決策,評論家評估並指導。
角色分工:
- Actor(演員):策略網路,選擇動作
- Critic(評論家):值函數網路,評估狀態價值
- 協作:評論家提供基線,減少策略梯度方差
優勢:
- 單步更新:無需等完整序列
- 低方差:基線減少策略梯度方差
- 在線:可實時學習
架構變體:
- A2C:同步,多環境並行
- A3C:異步,多線程
- SAC:軟演員評論家,最大熵
- TD3:雙延遲深度確定性策略梯度
損失函數:
- 演員:策略梯度
- 評論家:TD誤差或MC誤差
- 聯合或輪流更新
與純策略梯度/純值方法的比較:
- 結合兩者優勢
- 更穩定,更快
- 實現稍複雜
應用:
- 連續控制:機械臂、無人機
- 遊戲:各種遊戲AI
- 組合優化:路由、排程
是強化學習的主流架構。