詳細解釋
僅編碼器(Encoder-Only)架構只保留Transformer的編碼器部分,用於理解型任務,如BERT (雙向編碼器表示)。
特徵:
- 雙向注意力:可看整個輸入的前後文
- 無解碼器:不適合生成任務
- 表示學習:學習輸入的好表示
代表模型:
- BERT (雙向編碼器表示):最著名,遮罩語言模型
- RoBERTa:BERT優化版
- ALBERT:輕量BERT
- DistilBERT:蒸餾BERT
- ELECTRA:判別式預訓練
適合任務:
- 文本分類:情感分析、主題分類
- 命名實體識別:序列標註
- 問答抽取:從文本抽答案
- 語義相似度:句子對比
- 特徵提取:下游任務的表示
不適合:
- 文本生成:無自回歸能力
- 機器翻譯:無解碼器
- 三種Transformer變體
- 僅編碼器專精理解
- 現代趨勢是統一架構或僅解碼器