人類回饋強化學習

RLHF

利用人類偏好數據訓練LLM的對齊方法

詳細解釋

RLHF(Reinforcement Learning from Human Feedback)是用人類偏好回饋來訓練大型語言模型 (大語言模型 / 大模型)強化學習方法,讓模型輸出更符合人類價值觀。

流程:

ChatGPT、Claude大型語言模型 (大語言模型 / 大模型)都採用RLHF提升安全性與有用性。

相關AI領域

探索更多AI詞彙

查看所有分類,繼續學習AI知識