Transformer架構 (變換器 / 注意力模型) (Switch Transformer)

Transformer Architecture (Switch Transformer)

使用注意力機制處理序列數據的革命性神經網絡架構

詳細解釋

Transformer是一種神經網絡 (類神經網路)架構,於2017年由Google提出,徹底改變了自然語言處理 (NLP)領域。它不使用傳統的循環神經網絡 (RNN)卷積神經網絡 (CNN),而是完全基於注意力機制 (注意力)來處理序列數據。

核心創新:

  • 自注意力機制(Self-Attention):讓模型能同時關注輸入序列的所有位置
  • 並行處理:不像RNN需要逐個處理,Transformer可並行處理整個序列
  • 位置編碼:讓模型理解詞語的順序和位置關係

主要組件:

  • 編碼器(Encoder):理解輸入文本
  • 解碼器(Decoder):生成輸出文本
  • 多頭注意力:從不同角度理解輸入

Transformer是所有現代大型語言模型 (大語言模型 / 大模型)(如GPT (生成式預訓練變換器)、BERT)的基礎架構,也是擴散模型 (擴散生成模型)等生成模型的核心組件。

亦稱「Switch Transformer」。

相關AI領域

標籤

進階

探索更多AI詞彙

查看所有分類,繼續學習AI知識