經驗回放

Experience Replay

重複利用過往經驗的訓練

詳細解釋

經驗回放(Experience Replay)是存儲和重複利用過往經驗的強化學習技術,提升樣本效率和訓練穩定性。

運作方式:

  • 存儲:將(s,a,r,s')經驗存入緩衝區
  • 採樣:訓練時隨機抽取批次
  • 重用:同一經驗多次用於訓練

優勢:

  • 樣本效率:不浪費經驗
  • 打破相關性:隨機採樣減少時間相關
  • 平滑分布:均勻覆蓋狀態空間
  • 穩定訓練:避免災難性遺忘

變體:

  • 均勻回放:隨機採樣
  • 優先回放(PER):依TD誤差優先採樣重要經驗
  • 分層回放:依策略分佈採樣

在DQN中的應用:

  • 解決神經網絡的相關性問題
  • 大幅提升樣本效率
  • 讓深度RL可行

與on-policy的區別:

  • 回放:可用舊策略數據(off-policy)
  • 不使用:只能用當前策略(on-policy)

強化學習的標準技術。

探索更多AI詞彙

查看所有分類,繼續學習AI知識