價值函數(Value Function)是強化學習中估計狀態或狀態-動作對期望回報的函數,指導決策優化。
類型:
- V(s):狀態價值,從狀態s開始的期望回報
- Q(s,a):動作價值,在s執行a的期望回報
- A(s,a):優勢函數,Q-V,衡量相對好壞
與策略的關係:
- 策略:決定做什麼(動作機率)
- 價值:評估有多好(期望回報)
- 兩者互相更新優化
學習方法:
- 蒙特卡洛:實際回報平均
- 時序差分(TD):自舉更新
- 函數近似:神經網絡表示
應用:
與獎勵的區別:
- 獎勵:即時反饋
- 價值:長期累積期望
- 價值是獎勵的時序累積預測
是強化學習的核心概念。