好奇心驅動學習

Curiosity-driven Learning

以好奇心為內在獎勵

詳細解釋

好奇心驅動學習(Curiosity-Driven Learning)是以預測誤差為內在獎勵的探索方法,讓Agent主動探索環境。

內在獎勵:

  • 預測模型:預測下一狀態
  • 高誤差 = 高好奇心
  • 鼓勵探索預測困難的區域

優勢:

  • 無需外在獎勵:純內在動機
  • 自動探索:Agent自己找有趣的事
  • 稀疏獎勵:外在獎勵少時尤為重要

方法:

  • ICM:內在好奇心模塊
  • 前向模型:預測下一狀態
  • 反向前向:動作預測
  • RND:隨機網路蒸餾

與傳統探索的對比:

  • ε-貪婪:隨機探索
  • 好奇心:有目的的智能探索
  • 通常更高效

局限:

  • 白噪聲問題:對不可預測刺激過度反應
  • 電視問題:無意義但動態的輸入
  • 獎勵塑造:內在獎勵可能誤導

應用:

  • 遊戲:無分數時的持續探索
  • 機器人:自主發現技能
  • 多任務:持續學習新能力

強化學習中實現自主探索的重要方法。

探索更多AI詞彙

查看所有分類,繼續學習AI知識