僅解碼器

Decoder-only

如GPT般只含解碼器的模型

詳細解釋

僅解碼器(Decoder-Only)架構只保留Transformer的解碼器部分,用於自回歸生成任務,如GPT (生成式預訓練變換器)

特徵:

  • 因果注意力:僅看前面位置,遮罩未來
  • 自回歸生成:逐token生成
  • 統一架構:理解和生成一體

代表模型:

優勢:

  • 簡潔:單一架構,易於擴展
  • 統一:同模型處理各種任務
  • 生成強大:自回歸是語言本質
  • 擴展性:堆疊層數和參數效果顯著

訓練目標:

  • 下一個token預測
  • 簡單統一
  • 大規模數據即可

與其他架構的對比:

  • 取代編解碼器成為主流
  • GPT-3證明規模化潛力
  • 現代幾乎所有大模型用此架構

是當前大型語言模型 (大語言模型 / 大模型)的標準設計。

探索更多AI詞彙

查看所有分類,繼續學習AI知識