🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

3中級模型架構

探索與利用

Exploration vs. Exploitation

嘗試新事物與利用已知的取捨

詳細解釋

探索與利用（Exploration vs Exploitation）是強化學習的核心權衡：嘗試新事物 vs 使用已知最佳策略。

困境：

純利用：可能錯過更好選擇
純探索：浪費時間在差選項
需平衡以最大化長期回報

策略：

ε-貪婪：以ε機率隨機，1-ε機率最優
上界置信（UCB）：選不確定性高的
湯普森採樣：依機率分佈採樣
玻爾茲曼探索：依Q值軟最大化

應用場景：

推薦系統：推新物品 vs 熱門物品
廣告投放：試新策略 vs 穩定收益
臨床試驗：試新藥 vs 已知有效藥
A/B測試：探索轉化率

理論：

多臂賭博機問題
遺憾（Regret）最小化
對數遺憾是最優

實務：

初期多探索
後期多利用
環境變化需重新探索

是決策算法的經典問題。

相關詞彙

透過試錯與獎勵機制學習最佳決策的方法

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙