詳細解釋
TD學習(Temporal-Difference Learning)是結合蒙地卡羅和動態規劃的強化學習方法,自舉更新值函數估計。
核心思想:
- 自舉:用當前估計更新,無需等到結束
- TD誤差:δ = r + γV(s') - V(s)
- 更新:V(s) ← V(s) + αδ
與MC和DP的對比:
- MC:等到結束,無偏但高方差
- DP:需要模型,全備份
- TD:中間,自舉,低方差,無需模型
算法:
- TD(0):單步TD
- SARSA:On-Policy控制
- Q-Learning:Off-Policy控制
- TD(λ):多步TD, eligibility traces
TD誤差:
- 可解釋為驚訝信號
- 用於策略評估和改進
- 生物合理性(多巴胺神經元)
優勢:
- 在線:每步都可更新
- 低方差:比MC穩定
- 無模型:比DP實用
是強化學習最核心、最廣泛使用的方法。