詳細解釋
貝爾曼方程(Bellman Equation)是動態規劃與強化學習的核心等式,描述最優值函數的遞歸關係。
方程:
- 最優性原理:最優策略的子策略也最優
- V*(s) = max_a [R(s,a) + γΣP(s'|s,a)V*(s')]
- Q*(s,a) = R(s,a) + γΣP(s'|s,a)max_a' Q*(s',a')
含義:
- 現在值 = 即時獎勵 + 折扣後的未來期望值
- 遞歸結構:值函數的自洽定義
應用:
- 值迭代:反覆應用貝爾曼方程收斂
- 策略迭代:評估+改進循環
- Q學習:時序差分更新Q值
- 所有值基方法的核心
與動態規劃的關係:
- 貝爾曼是動態規劃的理論基礎
- 最優子結構的數學表達
在深度RL中的應用:
- 神經網路逼近值函數
- TD誤差 = 目標(貝爾曼)- 當前估計
- 最小化TD誤差學習
是強化學習最重要的數學工具。