預訓練目標

Pre-training Objective

預訓練階段的優化目標

詳細解釋

預訓練目標(Pre-training Objective)是模型在大規模無標註數據上訓練的任務,學習通用表示和知識。

常見目標:

  • 語言建模:預測下一個token(GPT)
  • 遮罩語言模型:預測被遮罩詞(BERT)
  • 自回歸去噪:BART、T5
  • 對比學習:CLIP、SimCLR
  • 填空白:span corruption(T5)

設計原則:

  • 無需標註:利用海量無標註數據
  • 語義豐富:學到有用表示
  • 計算高效:可大規模訓練
  • 任務相關:與下游任務對齊

發展趨勢:

  • 從簡單(N-gram)到複雜(MLM)
  • 從單一(LM)到多任務(T5)
  • 從文本到多模態(CLIP)

與微調的關係:

  • 預訓練:通用知識和表示
  • 微調:特定任務適應
  • 預訓練目標影響微調效果

評估:

  • 下游任務性能
  • 表示品質( probing )
  • 樣本效率(少樣本表現)

基礎模型訓練的核心設計。

探索更多AI詞彙

查看所有分類,繼續學習AI知識