詳細解釋
在線策略學習(On-Policy Learning)是必須使用當前策略所產生的數據進行學習的方法。
特徵:
- 策略與數據同步更新
- 用最新策略採集新數據
- 丟棄舊策略的舊數據
代表算法:
- SARSA:On-Policy TD控制
- 策略梯度:REINFORCE、A2C、PPO
- 必須用當前策略的經驗
優勢:
- 簡單:無需處理分布差異
- 穩定:通常收斂更穩定
- 理論:分析通常更簡單
局限:
- 樣本效率低:數據只用一次
- 探索受限:只能用當前策略探索
- 在線要求:必須與環境持續交互
與離線策略學習的比較:
- On-Policy:簡單、穩定、耗數據
- Off-Policy:靈活、樣本高效、複雜
- 依場景選擇
應用:
- 模擬環境:可快速採樣
- 實時控制:機器人、遊戲
- 策略梯度系列
是強化學習的重要類別。