詳細解釋
強化學習(RL)是機器學習 (ML)的一種,代理(Agent)透過與環境互動、獲得獎勵或懲罰來學習最佳策略,無需大量標記數據。
核心概念:
- 狀態(State)、動作(Action)、獎勵(Reward)
- 探索與利用的平衡
- 人類回饋強化學習:用人類回饋訓練大型語言模型 (大語言模型 / 大模型)即屬此類
應用:遊戲AI、AI代理、機器人控制、聊天機器人 (對話機器人 / Chatbot)的對齊訓練。
強化學習(RL)是機器學習 (ML)的一種,代理(Agent)透過與環境互動、獲得獎勵或懲罰來學習最佳策略,無需大量標記數據。
核心概念:
應用:遊戲AI、AI代理、機器人控制、聊天機器人 (對話機器人 / Chatbot)的對齊訓練。