遮罩語言模型

MLM

預測被遮罩位置的預訓練任務

詳細解釋

遮罩語言模型(Masked Language Model, MLM)是BERT的預訓練任務,預測被遮罩(掩蓋)位置的詞,學習雙向上下文表示。

運作方式:

  • 隨機遮罩輸入序列的部分token(通常15%)
  • 用[MASK]特殊標記替換
  • 模型預測被遮罩的原始詞
  • 基於前後上下文雙向推理

與自回歸的區別:

  • MLM:雙向,可同時看多位置
  • 自回歸:單向,從左到右
  • MLM更適合理解,自回歸適合生成

預訓練細節:

  • 80%用[MASK],10%隨機詞,10%不變
  • 防止預訓練-微調不一致
  • 損失僅計算被遮罩位置

能力:

  • 上下文理解:雙向語境
  • 語言推理:填空的邏輯能力
  • 知識存儲:世界知識編碼於參數

應用:

影響:

  • 開創雙向預訓練範式
  • 啟發RoBERTa等改進
  • 與自回歸並列兩大預訓練目標

僅編碼器架構的核心訓練方法。

探索更多AI詞彙

查看所有分類,繼續學習AI知識