詳細解釋
蒙地卡羅樹搜尋(MCTS)是結合隨機採樣和樹搜尋的決策算法,在巨大搜索空間中找到好策略。
四個步驟:
- 選擇:從根到葉,選最有潛力節點(UCB公式)
- 擴展:添加新子節點
- 模擬:從新節點隨機玩到底(rollout)
- 反向傳播:更新路徑上節點統計
UCB公式:
- 平衡探索(未充分嘗試)和利用(已知高獎勵)
- 選擇得分最高的子節點
應用:
- AlphaGo/AlphaZero:圍棋、象棋、將棋
- 遊戲AI:即時策略遊戲
- 規劃:機器人動作規劃
- 優化:組合優化問題
與深度學習結合:
- 策略網路:指導MCTS選擇
- 價值網路:替代隨機rollout
- 兩者結合成就AlphaGo
優勢:
- 無需領域知識:從零學習
- 隨時中斷:時間到可給出答案
- 漸進改進:時間越多效果越好
是強化學習和AI的經典算法。