基礎模型

Base Model

未經指令對齊的預訓練模型

詳細解釋

經過大規模預訓練但尚未進行指令調優或 RLHF 的原始語言模型。它是所有後續改進版本的「基礎」。

預訓練 vs 指令模型:

  • Base:僅做「下一個 token 預測」,擅長文本續寫,但不會回答問題或對話
  • Instruct/Chat:經過 SFT + RLHF,學會遵循指令和對話格式

為何需要 Base 模型:

  • 研究:理解預訓練能力與對齊能力的分界
  • 領域適應:特定領域(法律、醫療)的持續預訓練需從 Base 開始
  • 自定義對齊:某些組織希望用自己的價值觀進行 RLHF,而非繼承 OpenAI/Anthropic 的
  • 創意生成:某些作家認為 Base 模型續寫更流暢、更少「安全腔」

代表模型:

  • Llama 2 Base、Mistral Base、Qwen Base
  • OpenAI 不提供 GPT-4 Base(僅 API 提供對齊版本)

使用方式:

  • 直接用於續寫、填空、文本分析
  • 作為領域預訓練起點(法律文本繼續訓練)
  • 蒸餾教師模型(學生模型學習 Base 的 logits)
  • 合併(Merge)素材:與其他 Base 模型權重平均創建新模型

局限性:未經對齊的 Base 模型不會「聊天」,輸入「你好」可能輸出「世界」而非「你好!有什麼可以幫助您?」。需要特定提示格式(如添加 "User:"、"Assistant:" 標籤)才能進行對話。

探索更多AI詞彙

查看所有分類,繼續學習AI知識