離線策略學習

Off-policy Learning

從與當前策略不同的數據學習

詳細解釋

離線策略學習(Off-Policy Learning)是從與當前策略不同的行為策略所產生的數據中學習的方法。

重要性:

  • 數據重用:可利用歷史數據、人類數據
  • 探索安全:學習策略與執行策略分離
  • 批量RL:從固定數據集學習

與On-Policy的對比:

  • On-Policy:必須用當前策略採集的數據
  • Off-Policy:可用任何來源的數據
  • Off-Policy更靈活但通常更複雜

方法:

  • Q學習:天然Off-Policy
  • 重要性採樣:加權修正分布差異
  • 經驗回放:重用過往經驗
  • 批量RL(Offline RL):純歷史數據

挑戰:

  • 分布偏移:行為策略與目標策略不同
  • 外推誤差:對未見狀態動作高估
  • 收斂:通常比On-Policy慢且不穩定

應用:

  • 推薦系統:利用歷史日誌
  • 醫療:從過往病例學習
  • 自動駕駛:模擬數據+真實數據
  • 機器人:人類示範學習

是實用RL的必須能力。

探索更多AI詞彙

查看所有分類,繼續學習AI知識