🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

4高級模型架構

在線策略學習

On-policy Learning

從當前策略產生的數據學習

詳細解釋

在線策略學習（On-Policy Learning）是必須使用當前策略所產生的數據進行學習的方法。

特徵：

策略與數據同步更新
用最新策略採集新數據
丟棄舊策略的舊數據

代表算法：

SARSA：On-Policy TD控制
策略梯度：REINFORCE、A2C、PPO
必須用當前策略的經驗

優勢：

簡單：無需處理分布差異
穩定：通常收斂更穩定
理論：分析通常更簡單

局限：

樣本效率低：數據只用一次
探索受限：只能用當前策略探索
在線要求：必須與環境持續交互

與離線策略學習的比較：

On-Policy：簡單、穩定、耗數據
Off-Policy：靈活、樣本高效、複雜
依場景選擇

應用：

模擬環境：可快速採樣
實時控制：機器人、遊戲
策略梯度系列

是強化學習的重要類別。

相關詞彙

透過試錯與獎勵機制學習最佳決策的方法

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙