時序差分學習

TD Learning

Temporal Difference,增量式價值估計

詳細解釋

TD學習(Temporal-Difference Learning)是結合蒙地卡羅和動態規劃的強化學習方法,自舉更新值函數估計。

核心思想:

  • 自舉:用當前估計更新,無需等到結束
  • TD誤差:δ = r + γV(s') - V(s)
  • 更新:V(s) ← V(s) + αδ

與MC和DP的對比:

  • MC:等到結束,無偏但高方差
  • DP:需要模型,全備份
  • TD:中間,自舉,低方差,無需模型

算法:

  • TD(0):單步TD
  • SARSA:On-Policy控制
  • Q-Learning:Off-Policy控制
  • TD(λ):多步TD, eligibility traces

TD誤差:

  • 可解釋為驚訝信號
  • 用於策略評估和改進
  • 生物合理性(多巴胺神經元)

優勢:

  • 在線:每步都可更新
  • 低方差:比MC穩定
  • 無模型:比DP實用

強化學習最核心、最廣泛使用的方法。

探索更多AI詞彙

查看所有分類,繼續學習AI知識