🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

4高級模型架構

時序差分學習

TD Learning

Temporal Difference，增量式價值估計

詳細解釋

TD學習（Temporal-Difference Learning）是結合蒙地卡羅和動態規劃的強化學習方法，自舉更新值函數估計。

核心思想：

自舉：用當前估計更新，無需等到結束
TD誤差：δ = r + γV(s') - V(s)
更新：V(s) ← V(s) + αδ

與MC和DP的對比：

MC：等到結束，無偏但高方差
DP：需要模型，全備份
TD：中間，自舉，低方差，無需模型

算法：

TD(0)：單步TD
SARSA：On-Policy控制
Q-Learning：Off-Policy控制
TD(λ)：多步TD， eligibility traces

TD誤差：

可解釋為驚訝信號
用於策略評估和改進
生物合理性（多巴胺神經元）

優勢：

在線：每步都可更新
低方差：比MC穩定
無模型：比DP實用

是強化學習最核心、最廣泛使用的方法。

相關詞彙

經典的無模型強化學習算法

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙