🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

3中級基礎概念

強化學習

Reinforcement Learning

透過試錯與獎勵機制學習最佳決策的方法

詳細解釋

強化學習（RL）是機器學習 (ML)的一種，代理（Agent）透過與環境互動、獲得獎勵或懲罰來學習最佳策略，無需大量標記數據。

核心概念：

狀態（State）、動作（Action）、獎勵（Reward）
探索與利用的平衡
人類回饋強化學習：用人類回饋訓練大型語言模型 (大語言模型 / 大模型)即屬此類

應用：遊戲AI、AI代理、機器人控制、聊天機器人 (對話機器人 / Chatbot)的對齊訓練。

相關AI領域

相關詞彙

機器學習 (ML)1

讓電腦從數據中自動學習模式，而無需明確編程

人類回饋強化學習4

利用人類偏好數據訓練LLM的對齊方法

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙