Q學習

Q-Learning

經典的無模型強化學習算法

詳細解釋

Q學習(Q-Learning)是經典的無模型強化學習算法,學習狀態-動作值函數Q(s,a),無需知道環境動力學。

核心概念:

  • Q值:在狀態s執行動作a的期望回報
  • Bellman方程:Q(s,a) = r + γmaxQ(s',a')
  • 時序差分:用實際回報更新估計

算法流程:

  1. 初始化Q表或Q網絡
  2. 選擇動作(ε-貪婪平衡探索利用)
  3. 執行動作,觀察獎勵和新狀態
  4. 更新Q值向目標靠近
  5. 重複直到收斂

變體:

  • DQN:深度Q網絡,處理連續狀態
  • Double DQN:解決過度估計
  • Dueling DQN:分離狀態和動作值
  • Rainbow:整合六項改進

應用:

  • Atari遊戲:DeepMind成名作
  • 機器人控制:離散動作控制
  • 資源管理:調度優化
  • 遊戲AI:NPC智能

與策略梯度的比較:

  • Q學習:基於值,間接學習策略
  • 策略梯度:直接優化策略

強化學習的基礎算法。

探索更多AI詞彙

查看所有分類,繼續學習AI知識