ORPO

ORPO

單階段偏好優化

詳細解釋

ORPO(Odds Ratio Preference Optimization)是單階段偏好優化方法,同時訓練SFT和偏好對齊,更高效。

人類回饋強化學習DPO的對比:

  • RLHF:三階段(SFT+RM+RL)
  • DPO:兩階段(SFT+DPO)
  • ORPO:單階段(同時SFT+偏好)

核心思想:

  • 奇率比(Odds Ratio):衡量偏好信號
  • 結合SFT損失和偏好損失
  • 一次訓練完成對齊

優勢:

  • 最高效:單階段完成
  • 省資源:無需分開訓練
  • 效果:通常匹配DPO

數據格式:

  • 提示+chosen+rejected
  • 監督信號來自chosen
  • 偏好信號來自chosen vs rejected

適用場景:

  • 從頭訓練對齊模型
  • 快速原型驗證
  • 資源受限環境

實現:

  • 整合在Hugging Face TRL
  • 與DPO類似的簡單實現

是對齊流程的進一步簡化,從三階段→兩階段→單階段。

探索更多AI詞彙

查看所有分類,繼續學習AI知識