詳細解釋
Q學習(Q-Learning)是經典的無模型強化學習算法,學習狀態-動作值函數Q(s,a),無需知道環境動力學。
核心概念:
- Q值:在狀態s執行動作a的期望回報
- Bellman方程:Q(s,a) = r + γmaxQ(s',a')
- 時序差分:用實際回報更新估計
算法流程:
- 初始化Q表或Q網絡
- 選擇動作(ε-貪婪平衡探索利用)
- 執行動作,觀察獎勵和新狀態
- 更新Q值向目標靠近
- 重複直到收斂
變體:
- DQN:深度Q網絡,處理連續狀態
- Double DQN:解決過度估計
- Dueling DQN:分離狀態和動作值
- Rainbow:整合六項改進
應用:
- Atari遊戲:DeepMind成名作
- 機器人控制:離散動作控制
- 資源管理:調度優化
- 遊戲AI:NPC智能
與策略梯度的比較:
- Q學習:基於值,間接學習策略
- 策略梯度:直接優化策略
是強化學習的基礎算法。