指令模型

Instruct Model

經過對齊可對話的模型

詳細解釋

經過指令調優(Instruction Tuning)的語言模型,能理解和遵循人類指令(如「翻譯成法語」「總結這段話」),而非僅做文本續寫。

與 Base 模型的區別:

  • Base:輸入「法語翻譯是」→ 續寫「一門有用的技能」
  • Instruct:輸入「將『你好』翻譯成法語」→ 「Bonjour」

訓練過程:

  1. 收集指令數據集:(指令,輸入,期望輸出)三元組
  2. SFT(監督微調):在指令數據上繼續訓練
  3. 數據來源:人工標註、現有 NLP 數據集改造、其他模型生成

指令格式:

  • Alpaca:### Instruction:... ### Input:... ### Response:...
  • ChatML:<|im_start|>user...<|im_end|>...<|im_start|>assistant...
  • 其他變體:不同模型有不同模板

代表模型:

  • Flan-T5(Google):早期指令模型
  • Alpaca(Stanford):LLaMA + 指令微調,證明了小成本也能做
  • Vicuna:開源社區基於 ShareGPT 數據
  • GPT-3.5/4(Instruct 版本):商業標準

評估:

  • 指令遵循度:是否按要求格式輸出
  • 有用性:回答是否實際幫助用戶
  • 安全性:是否拒絕有害請求

當前狀態:「指令模型」已成為默認,非指令的 Base 模型僅用於特定研究或繼續微調。

探索更多AI詞彙

查看所有分類,繼續學習AI知識