馬可夫決策過程

MDP

Markov Decision Process,RL的數學框架

詳細解釋

MDP(Markov Decision Process,馬可夫決策過程)是強化學習的數學框架,描述決策者在環境中的序貫決策。

組成:

  • 狀態(S):環境的所有可能狀態
  • 動作(A):可執行的動作
  • 轉移(P):P(s'|s,a),執行動作後的狀態轉移機率
  • 獎勵(R):R(s,a),執行動作的即時回報
  • 折扣(γ):未來獎勵的重要性

馬可夫性:

  • 未來只依賴現在,與過去無關
  • P(s'|s,a)與歷史無關
  • 簡化問題,使可解

目標:

  • 找到最優策略π*(a|s)
  • 最大化期望累積獎勵
  • 值函數、Q函數描述最優性

解法:

  • 動態規劃:已知模型時
  • 蒙地卡羅:從經驗學習
  • 時序差分:結合兩者
  • 強化學習算法

應用:

  • 所有RL問題的形式化
  • 機器人、遊戲、推薦等
  • 理論分析的基礎

強化學習的理論基石。

探索更多AI詞彙

查看所有分類,繼續學習AI知識