3中級基礎概念
Transformer架構 (變換器 / 注意力模型) (Switch Transformer)
Transformer Architecture (Switch Transformer)
使用注意力機制處理序列數據的革命性神經網絡架構
詳細解釋
Transformer是一種神經網絡 (類神經網路)架構,於2017年由Google提出,徹底改變了自然語言處理 (NLP)領域。它不使用傳統的循環神經網絡 (RNN)或卷積神經網絡 (CNN),而是完全基於注意力機制 (注意力)來處理序列數據。
核心創新:
- 自注意力機制(Self-Attention):讓模型能同時關注輸入序列的所有位置
- 並行處理:不像RNN需要逐個處理,Transformer可並行處理整個序列
- 位置編碼:讓模型理解詞語的順序和位置關係
主要組件:
- 編碼器(Encoder):理解輸入文本
- 解碼器(Decoder):生成輸出文本
- 多頭注意力:從不同角度理解輸入
Transformer是所有現代大型語言模型 (大語言模型 / 大模型)(如GPT (生成式預訓練變換器)、BERT)的基礎架構,也是擴散模型 (擴散生成模型)等生成模型的核心組件。
亦稱「Switch Transformer」。
相關AI領域
標籤
進階