詳細解釋
離線策略學習(Off-Policy Learning)是從與當前策略不同的行為策略所產生的數據中學習的方法。
重要性:
- 數據重用:可利用歷史數據、人類數據
- 探索安全:學習策略與執行策略分離
- 批量RL:從固定數據集學習
與On-Policy的對比:
- On-Policy:必須用當前策略採集的數據
- Off-Policy:可用任何來源的數據
- Off-Policy更靈活但通常更複雜
方法:
- Q學習:天然Off-Policy
- 重要性採樣:加權修正分布差異
- 經驗回放:重用過往經驗
- 批量RL(Offline RL):純歷史數據
挑戰:
- 分布偏移:行為策略與目標策略不同
- 外推誤差:對未見狀態動作高估
- 收斂:通常比On-Policy慢且不穩定
應用:
- 推薦系統:利用歷史日誌
- 醫療:從過往病例學習
- 自動駕駛:模擬數據+真實數據
- 機器人:人類示範學習
是實用RL的必須能力。