詳細解釋
折扣因子(Discount Factor, γ)是強化學習中未來獎勵的折現係數,平衡即時和長期回報。
數學:
- 回報 G = r₁ + γr₂ + γ²r₃ + ...
- γ ∈ [0, 1]
- γ=0:只看即時獎勵
- γ=1:無折扣,所有未來同等重要
選擇考量:
- 任務性質:長期規劃需高γ
- 不確定性:環境不穩定用低γ
- 收斂性:高γ可能導致不穩定
常見設置:
- 簡單任務:0.9-0.95
- 長期規劃:0.99-0.999
- 連續控制:0.99常見
與人類行為的類比:
- 折扣反映耐心程度
- 高折扣:目光長遠
- 低折扣:急功近利
對算法的影響:
- 影響價值函數估計
- 影響策略優化目標
- 需調參找到平衡
是強化學習的重要超參數。