詳細解釋
經驗回放(Experience Replay)是存儲和重複利用過往經驗的強化學習技術,提升樣本效率和訓練穩定性。
運作方式:
- 存儲:將(s,a,r,s')經驗存入緩衝區
- 採樣:訓練時隨機抽取批次
- 重用:同一經驗多次用於訓練
優勢:
- 樣本效率:不浪費經驗
- 打破相關性:隨機採樣減少時間相關
- 平滑分布:均勻覆蓋狀態空間
- 穩定訓練:避免災難性遺忘
變體:
- 均勻回放:隨機採樣
- 優先回放(PER):依TD誤差優先採樣重要經驗
- 分層回放:依策略分佈採樣
在DQN中的應用:
- 解決神經網絡的相關性問題
- 大幅提升樣本效率
- 讓深度RL可行
與on-policy的區別:
- 回放:可用舊策略數據(off-policy)
- 不使用:只能用當前策略(on-policy)
是強化學習的標準技術。