DPO

Direct Preference Optimization

直接優化偏好無需獎勵模型

詳細解釋

DPO(Direct Preference Optimization)是直接優化偏好無需獎勵模型的強化學習對齊方法,簡化了RLHF流程。

人類回饋強化學習的對比:

  • RLHF:訓練獎勵模型→RL優化(PPO)
  • DPO:直接優化策略,無需獎勵模型
  • DPO更簡單,效果相當

數學原理:

  • 從偏好數據導出最優策略的閉式解
  • 將RL問題轉為分類問題
  • 直接優化策略似然比

優勢:

  • 簡單:無需訓練獎勵模型
  • 穩定:無需RL,避免PPO不穩定
  • 高效:類似監督學習的訓練速度
  • 效果:通常匹配或超越RLHF

訓練數據:

  • 偏好對:chosen vs rejected
  • 格式與RLHF相同
  • 可復用現有數據集

實現:

  • Hugging Face TRL庫支援
  • 簡單的損失函數
  • 幾行代碼即可實現

後續發展:

  • IPO:識別偏好優化
  • KTO:卡爾巴客-圖尼爾優化
  • ORPO:單階段優化

是對齊技術的重大簡化和改進。

探索更多AI詞彙

查看所有分類,繼續學習AI知識