詳細解釋
MDP(Markov Decision Process,馬可夫決策過程)是強化學習的數學框架,描述決策者在環境中的序貫決策。
組成:
- 狀態(S):環境的所有可能狀態
- 動作(A):可執行的動作
- 轉移(P):P(s'|s,a),執行動作後的狀態轉移機率
- 獎勵(R):R(s,a),執行動作的即時回報
- 折扣(γ):未來獎勵的重要性
馬可夫性:
- 未來只依賴現在,與過去無關
- P(s'|s,a)與歷史無關
- 簡化問題,使可解
目標:
- 找到最優策略π*(a|s)
- 最大化期望累積獎勵
- 值函數、Q函數描述最優性
解法:
- 動態規劃:已知模型時
- 蒙地卡羅:從經驗學習
- 時序差分:結合兩者
- 強化學習算法
應用:
- 所有RL問題的形式化
- 機器人、遊戲、推薦等
- 理論分析的基礎
是強化學習的理論基石。