詳細解釋
遮罩語言模型(Masked Language Model, MLM)是BERT的預訓練任務,預測被遮罩(掩蓋)位置的詞,學習雙向上下文表示。
運作方式:
- 隨機遮罩輸入序列的部分token(通常15%)
- 用[MASK]特殊標記替換
- 模型預測被遮罩的原始詞
- 基於前後上下文雙向推理
與自回歸的區別:
- MLM:雙向,可同時看多位置
- 自回歸:單向,從左到右
- MLM更適合理解,自回歸適合生成
預訓練細節:
- 80%用[MASK],10%隨機詞,10%不變
- 防止預訓練-微調不一致
- 損失僅計算被遮罩位置
能力:
- 上下文理解:雙向語境
- 語言推理:填空的邏輯能力
- 知識存儲:世界知識編碼於參數
應用:
- 作為BERT (雙向編碼器表示)等模型的預訓練任務
- 微調後用於分類、問答等
- 特徵提取:句子和詞級表示
影響:
- 開創雙向預訓練範式
- 啟發RoBERTa等改進
- 與自回歸並列兩大預訓練目標
是僅編碼器架構的核心訓練方法。