貝爾曼方程

Bellman Equation

動態規劃與RL的核心等式

詳細解釋

貝爾曼方程(Bellman Equation)是動態規劃與強化學習的核心等式,描述最優值函數的遞歸關係。

方程:

  • 最優性原理:最優策略的子策略也最優
  • V*(s) = max_a [R(s,a) + γΣP(s'|s,a)V*(s')]
  • Q*(s,a) = R(s,a) + γΣP(s'|s,a)max_a' Q*(s',a')

含義:

  • 現在值 = 即時獎勵 + 折扣後的未來期望值
  • 遞歸結構:值函數的自洽定義

應用:

  • 值迭代:反覆應用貝爾曼方程收斂
  • 策略迭代:評估+改進循環
  • Q學習:時序差分更新Q值
  • 所有值基方法的核心

與動態規劃的關係:

  • 貝爾曼是動態規劃的理論基礎
  • 最優子結構的數學表達

在深度RL中的應用:

  • 神經網路逼近值函數
  • TD誤差 = 目標(貝爾曼)- 當前估計
  • 最小化TD誤差學習

強化學習最重要的數學工具。

探索更多AI詞彙

查看所有分類,繼續學習AI知識