指令微調

Instruction Tuning

用指令-回應對微調模型以遵循人類指令

詳細解釋

指令微調(Instruction Tuning)是用指令-回應對微調預訓練模型,使其能遵循人類指令完成任務。

數據格式:

  • 指令:具體任務描述(「翻譯成法語」)
  • 輸入:可選的任務內容
  • 回應:期望的輸出

示例數據集:

  • FLAN:多任務指令集合
  • Alpaca:52k指令,GPT生成
  • Dolly:人工標註指令
  • SuperNaturalInstructions:1600+任務

訓練目標:

  • 最大化回應的似然
  • 保持預訓練知識
  • 學習遵循指令格式

人類回饋強化學習的區別:

  • 指令微調:學習執行指令
  • RLHF:學習符合人類偏好
  • 常先指令微調,再RLHF

效果:

  • 零樣本能力:無需示例即可完成新任務
  • 指令泛化:對未見指令也有一定能力
  • 對話就緒:為對話應用奠定基礎

大型語言模型 (大語言模型 / 大模型)從語言模型進化為助手的關鍵步驟。

探索更多AI詞彙

查看所有分類,繼續學習AI知識