價值函數

Value Function

估計狀態或動作的期望回報

詳細解釋

價值函數(Value Function)是強化學習中估計狀態或狀態-動作對期望回報的函數,指導決策優化。

類型:

  • V(s):狀態價值,從狀態s開始的期望回報
  • Q(s,a):動作價值,在s執行a的期望回報
  • A(s,a):優勢函數,Q-V,衡量相對好壞

與策略的關係:

  • 策略:決定做什麼(動作機率)
  • 價值:評估有多好(期望回報)
  • 兩者互相更新優化

學習方法:

  • 蒙特卡洛:實際回報平均
  • 時序差分(TD):自舉更新
  • 函數近似:神經網絡表示

應用:

  • Q學習:學習Q函數
  • 策略梯度:基線減少方差
  • 演員-評論家:評論家組件
  • 棋類AI:評估局面好壞

與獎勵的區別:

  • 獎勵:即時反饋
  • 價值:長期累積期望
  • 價值是獎勵的時序累積預測

強化學習的核心概念。

探索更多AI詞彙

查看所有分類,繼續學習AI知識