詳細解釋
僅解碼器(Decoder-Only)架構只保留Transformer的解碼器部分,用於自回歸生成任務,如GPT (生成式預訓練變換器)。
特徵:
- 因果注意力:僅看前面位置,遮罩未來
- 自回歸生成:逐token生成
- 統一架構:理解和生成一體
代表模型:
- GPT (生成式預訓練變換器)系列:GPT-1/2/3/4
- LLaMA:開源標竿
- Claude:Anthropic作品
- PaLM:Google大模型
- 大部分現代大型語言模型 (大語言模型 / 大模型)
優勢:
- 簡潔:單一架構,易於擴展
- 統一:同模型處理各種任務
- 生成強大:自回歸是語言本質
- 擴展性:堆疊層數和參數效果顯著
訓練目標:
- 下一個token預測
- 簡單統一
- 大規模數據即可
與其他架構的對比:
- 取代編解碼器成為主流
- GPT-3證明規模化潛力
- 現代幾乎所有大模型用此架構
是當前大型語言模型 (大語言模型 / 大模型)的標準設計。