🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

3中級模型架構

指令微調

Instruction Tuning

用指令-回應對微調模型以遵循人類指令

詳細解釋

指令微調（Instruction Tuning）是用指令-回應對微調預訓練模型，使其能遵循人類指令完成任務。

數據格式：

指令：具體任務描述（「翻譯成法語」）
輸入：可選的任務內容
回應：期望的輸出

示例數據集：

FLAN：多任務指令集合
Alpaca：52k指令，GPT生成
Dolly：人工標註指令
SuperNaturalInstructions：1600+任務

訓練目標：

最大化回應的似然
保持預訓練知識
學習遵循指令格式

與人類回饋強化學習的區別：

指令微調：學習執行指令
RLHF：學習符合人類偏好
常先指令微調，再RLHF

效果：

零樣本能力：無需示例即可完成新任務
指令泛化：對未見指令也有一定能力
對話就緒：為對話應用奠定基礎

是大型語言模型 (大語言模型 / 大模型)從語言模型進化為助手的關鍵步驟。

相關詞彙

微調 (模型微調)3

在預訓練模型基礎上，使用特定數據進一步訓練以適應特定任務

人類回饋強化學習4

利用人類偏好數據訓練LLM的對齊方法

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙