在線策略學習

On-policy Learning

從當前策略產生的數據學習

詳細解釋

在線策略學習(On-Policy Learning)是必須使用當前策略所產生的數據進行學習的方法。

特徵:

  • 策略與數據同步更新
  • 用最新策略採集新數據
  • 丟棄舊策略的舊數據

代表算法:

  • SARSA:On-Policy TD控制
  • 策略梯度:REINFORCE、A2C、PPO
  • 必須用當前策略的經驗

優勢:

  • 簡單:無需處理分布差異
  • 穩定:通常收斂更穩定
  • 理論:分析通常更簡單

局限:

  • 樣本效率低:數據只用一次
  • 探索受限:只能用當前策略探索
  • 在線要求:必須與環境持續交互

離線策略學習的比較:

  • On-Policy:簡單、穩定、耗數據
  • Off-Policy:靈活、樣本高效、複雜
  • 依場景選擇

應用:

  • 模擬環境:可快速採樣
  • 實時控制:機器人、遊戲
  • 策略梯度系列

強化學習的重要類別。

探索更多AI詞彙

查看所有分類,繼續學習AI知識