詳細解釋
預訓練目標(Pre-training Objective)是模型在大規模無標註數據上訓練的任務,學習通用表示和知識。
常見目標:
- 語言建模:預測下一個token(GPT)
- 遮罩語言模型:預測被遮罩詞(BERT)
- 自回歸去噪:BART、T5
- 對比學習:CLIP、SimCLR
- 填空白:span corruption(T5)
設計原則:
- 無需標註:利用海量無標註數據
- 語義豐富:學到有用表示
- 計算高效:可大規模訓練
- 任務相關:與下游任務對齊
發展趨勢:
- 從簡單(N-gram)到複雜(MLM)
- 從單一(LM)到多任務(T5)
- 從文本到多模態(CLIP)
與微調的關係:
- 預訓練:通用知識和表示
- 微調:特定任務適應
- 預訓練目標影響微調效果
評估:
- 下游任務性能
- 表示品質( probing )
- 樣本效率(少樣本表現)
是基礎模型訓練的核心設計。