探索與利用

Exploration vs. Exploitation

嘗試新事物與利用已知的取捨

詳細解釋

探索與利用(Exploration vs Exploitation)是強化學習的核心權衡:嘗試新事物 vs 使用已知最佳策略。

困境:

  • 純利用:可能錯過更好選擇
  • 純探索:浪費時間在差選項
  • 需平衡以最大化長期回報

策略:

  • ε-貪婪:以ε機率隨機,1-ε機率最優
  • 上界置信(UCB):選不確定性高的
  • 湯普森採樣:依機率分佈採樣
  • 玻爾茲曼探索:依Q值軟最大化

應用場景:

  • 推薦系統:推新物品 vs 熱門物品
  • 廣告投放:試新策略 vs 穩定收益
  • 臨床試驗:試新藥 vs 已知有效藥
  • A/B測試:探索轉化率

理論:

  • 多臂賭博機問題
  • 遺憾(Regret)最小化
  • 對數遺憾是最優

實務:

  • 初期多探索
  • 後期多利用
  • 環境變化需重新探索

是決策算法的經典問題。

探索更多AI詞彙

查看所有分類,繼續學習AI知識