詳細解釋
好奇心驅動學習(Curiosity-Driven Learning)是以預測誤差為內在獎勵的探索方法,讓Agent主動探索環境。
內在獎勵:
- 預測模型:預測下一狀態
- 高誤差 = 高好奇心
- 鼓勵探索預測困難的區域
優勢:
- 無需外在獎勵:純內在動機
- 自動探索:Agent自己找有趣的事
- 稀疏獎勵:外在獎勵少時尤為重要
方法:
- ICM:內在好奇心模塊
- 前向模型:預測下一狀態
- 反向前向:動作預測
- RND:隨機網路蒸餾
與傳統探索的對比:
- ε-貪婪:隨機探索
- 好奇心:有目的的智能探索
- 通常更高效
局限:
- 白噪聲問題:對不可預測刺激過度反應
- 電視問題:無意義但動態的輸入
- 獎勵塑造:內在獎勵可能誤導
應用:
- 遊戲:無分數時的持續探索
- 機器人:自主發現技能
- 多任務:持續學習新能力
是強化學習中實現自主探索的重要方法。