詳細解釋
DPO(Direct Preference Optimization)是直接優化偏好無需獎勵模型的強化學習對齊方法,簡化了RLHF流程。
與人類回饋強化學習的對比:
- RLHF:訓練獎勵模型→RL優化(PPO)
- DPO:直接優化策略,無需獎勵模型
- DPO更簡單,效果相當
數學原理:
- 從偏好數據導出最優策略的閉式解
- 將RL問題轉為分類問題
- 直接優化策略似然比
優勢:
- 簡單:無需訓練獎勵模型
- 穩定:無需RL,避免PPO不穩定
- 高效:類似監督學習的訓練速度
- 效果:通常匹配或超越RLHF
訓練數據:
- 偏好對:chosen vs rejected
- 格式與RLHF相同
- 可復用現有數據集
實現:
- Hugging Face TRL庫支援
- 簡單的損失函數
- 幾行代碼即可實現
後續發展:
- IPO:識別偏好優化
- KTO:卡爾巴客-圖尼爾優化
- ORPO:單階段優化
是對齊技術的重大簡化和改進。