🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

3中級模型架構

Q學習

Q-Learning

經典的無模型強化學習算法

詳細解釋

Q學習（Q-Learning）是經典的無模型強化學習算法，學習狀態-動作值函數Q(s,a)，無需知道環境動力學。

核心概念：

Q值：在狀態s執行動作a的期望回報
Bellman方程：Q(s,a) = r + γmaxQ(s',a')
時序差分：用實際回報更新估計

算法流程：

初始化Q表或Q網絡
選擇動作（ε-貪婪平衡探索利用）
執行動作，觀察獎勵和新狀態
更新Q值向目標靠近
重複直到收斂

變體：

DQN：深度Q網絡，處理連續狀態
Double DQN：解決過度估計
Dueling DQN：分離狀態和動作值
Rainbow：整合六項改進

應用：

Atari遊戲：DeepMind成名作
機器人控制：離散動作控制
資源管理：調度優化
遊戲AI：NPC智能

與策略梯度的比較：

Q學習：基於值，間接學習策略
策略梯度：直接優化策略

是強化學習的基礎算法。

相關詞彙

透過試錯與獎勵機制學習最佳決策的方法

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙