🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

3中級模型架構

價值函數

Value Function

估計狀態或動作的期望回報

詳細解釋

價值函數（Value Function）是強化學習中估計狀態或狀態-動作對期望回報的函數，指導決策優化。

類型：

V(s)：狀態價值，從狀態s開始的期望回報
Q(s,a)：動作價值，在s執行a的期望回報
A(s,a)：優勢函數，Q-V，衡量相對好壞

與策略的關係：

策略：決定做什麼（動作機率）
價值：評估有多好（期望回報）
兩者互相更新優化

學習方法：

蒙特卡洛：實際回報平均
時序差分（TD）：自舉更新
函數近似：神經網絡表示

應用：

Q學習：學習Q函數
策略梯度：基線減少方差
演員-評論家：評論家組件
棋類AI：評估局面好壞

與獎勵的區別：

獎勵：即時反饋
價值：長期累積期望
價值是獎勵的時序累積預測

是強化學習的核心概念。

相關詞彙

透過試錯與獎勵機制學習最佳決策的方法

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙