詳細解釋
經過大規模預訓練但尚未進行指令調優或 RLHF 的原始語言模型。它是所有後續改進版本的「基礎」。
預訓練 vs 指令模型:
- Base:僅做「下一個 token 預測」,擅長文本續寫,但不會回答問題或對話
- Instruct/Chat:經過 SFT + RLHF,學會遵循指令和對話格式
為何需要 Base 模型:
- 研究:理解預訓練能力與對齊能力的分界
- 領域適應:特定領域(法律、醫療)的持續預訓練需從 Base 開始
- 自定義對齊:某些組織希望用自己的價值觀進行 RLHF,而非繼承 OpenAI/Anthropic 的
- 創意生成:某些作家認為 Base 模型續寫更流暢、更少「安全腔」
代表模型:
- Llama 2 Base、Mistral Base、Qwen Base
- OpenAI 不提供 GPT-4 Base(僅 API 提供對齊版本)
使用方式:
- 直接用於續寫、填空、文本分析
- 作為領域預訓練起點(法律文本繼續訓練)
- 蒸餾教師模型(學生模型學習 Base 的 logits)
- 合併(Merge)素材:與其他 Base 模型權重平均創建新模型
局限性:未經對齊的 Base 模型不會「聊天」,輸入「你好」可能輸出「世界」而非「你好!有什麼可以幫助您?」。需要特定提示格式(如添加 "User:"、"Assistant:" 標籤)才能進行對話。