詳細解釋
探索與利用(Exploration vs Exploitation)是強化學習的核心權衡:嘗試新事物 vs 使用已知最佳策略。
困境:
- 純利用:可能錯過更好選擇
- 純探索:浪費時間在差選項
- 需平衡以最大化長期回報
策略:
- ε-貪婪:以ε機率隨機,1-ε機率最優
- 上界置信(UCB):選不確定性高的
- 湯普森採樣:依機率分佈採樣
- 玻爾茲曼探索:依Q值軟最大化
應用場景:
- 推薦系統:推新物品 vs 熱門物品
- 廣告投放:試新策略 vs 穩定收益
- 臨床試驗:試新藥 vs 已知有效藥
- A/B測試:探索轉化率
理論:
- 多臂賭博機問題
- 遺憾(Regret)最小化
- 對數遺憾是最優
實務:
- 初期多探索
- 後期多利用
- 環境變化需重新探索
是決策算法的經典問題。