詳細解釋
ORPO(Odds Ratio Preference Optimization)是單階段偏好優化方法,同時訓練SFT和偏好對齊,更高效。
- RLHF:三階段(SFT+RM+RL)
- DPO:兩階段(SFT+DPO)
- ORPO:單階段(同時SFT+偏好)
核心思想:
- 奇率比(Odds Ratio):衡量偏好信號
- 結合SFT損失和偏好損失
- 一次訓練完成對齊
優勢:
- 最高效:單階段完成
- 省資源:無需分開訓練
- 效果:通常匹配DPO
數據格式:
- 提示+chosen+rejected
- 監督信號來自chosen
- 偏好信號來自chosen vs rejected
適用場景:
- 從頭訓練對齊模型
- 快速原型驗證
- 資源受限環境
實現:
- 整合在Hugging Face TRL
- 與DPO類似的簡單實現
是對齊流程的進一步簡化,從三階段→兩階段→單階段。