折扣因子

Discount Factor

未來獎勵的折現係數

詳細解釋

折扣因子(Discount Factor, γ)是強化學習中未來獎勵的折現係數,平衡即時和長期回報。

數學:

  • 回報 G = r₁ + γr₂ + γ²r₃ + ...
  • γ ∈ [0, 1]
  • γ=0:只看即時獎勵
  • γ=1:無折扣,所有未來同等重要

選擇考量:

  • 任務性質:長期規劃需高γ
  • 不確定性:環境不穩定用低γ
  • 收斂性:高γ可能導致不穩定

常見設置:

  • 簡單任務:0.9-0.95
  • 長期規劃:0.99-0.999
  • 連續控制:0.99常見

與人類行為的類比:

  • 折扣反映耐心程度
  • 高折扣:目光長遠
  • 低折扣:急功近利

對算法的影響:

  • 影響價值函數估計
  • 影響策略優化目標
  • 需調參找到平衡

強化學習的重要超參數。

探索更多AI詞彙

查看所有分類,繼續學習AI知識