詳細解釋
經過指令調優(Instruction Tuning)的語言模型,能理解和遵循人類指令(如「翻譯成法語」「總結這段話」),而非僅做文本續寫。
與 Base 模型的區別:
- Base:輸入「法語翻譯是」→ 續寫「一門有用的技能」
- Instruct:輸入「將『你好』翻譯成法語」→ 「Bonjour」
訓練過程:
- 收集指令數據集:(指令,輸入,期望輸出)三元組
- SFT(監督微調):在指令數據上繼續訓練
- 數據來源:人工標註、現有 NLP 數據集改造、其他模型生成
指令格式:
- Alpaca:### Instruction:... ### Input:... ### Response:...
- ChatML:<|im_start|>user...<|im_end|>...<|im_start|>assistant...
- 其他變體:不同模型有不同模板
代表模型:
- Flan-T5(Google):早期指令模型
- Alpaca(Stanford):LLaMA + 指令微調,證明了小成本也能做
- Vicuna:開源社區基於 ShareGPT 數據
- GPT-3.5/4(Instruct 版本):商業標準
評估:
- 指令遵循度:是否按要求格式輸出
- 有用性:回答是否實際幫助用戶
- 安全性:是否拒絕有害請求
當前狀態:「指令模型」已成為默認,非指令的 Base 模型僅用於特定研究或繼續微調。