蒙地卡羅樹搜尋

MCTS

透過隨機模擬的樹搜尋方法

詳細解釋

蒙地卡羅樹搜尋(MCTS)是結合隨機採樣和樹搜尋的決策算法,在巨大搜索空間中找到好策略。

四個步驟:

  1. 選擇:從根到葉,選最有潛力節點(UCB公式)
  2. 擴展:添加新子節點
  3. 模擬:從新節點隨機玩到底(rollout)
  4. 反向傳播:更新路徑上節點統計

UCB公式:

  • 平衡探索(未充分嘗試)和利用(已知高獎勵)
  • 選擇得分最高的子節點

應用:

  • AlphaGo/AlphaZero:圍棋、象棋、將棋
  • 遊戲AI:即時策略遊戲
  • 規劃:機器人動作規劃
  • 優化:組合優化問題

與深度學習結合:

  • 策略網路:指導MCTS選擇
  • 價值網路:替代隨機rollout
  • 兩者結合成就AlphaGo

優勢:

  • 無需領域知識:從零學習
  • 隨時中斷:時間到可給出答案
  • 漸進改進:時間越多效果越好

強化學習和AI的經典算法。

探索更多AI詞彙

查看所有分類,繼續學習AI知識