詳細解釋
解碼器(Decoder)是序列到序列模型中從內部表示生成輸出序列的部分,是Transformer架構 (變換器 / 注意力模型) (Switch Transformer)的右半部分。
核心特性:
- 自回歸生成:逐token生成,每次依賴已生成內容
- 因果遮罩:防止看到未來token
- 交叉注意力:關注編碼器輸出
在Transformer中:
- 多層:自注意力 + 交叉注意力 + 前饋
- 自注意力:因果遮罩,左向
- 交叉注意力:關注編碼器
生成策略:
- 貪婪:每步選機率最高
- 束搜尋:保留多個候選
- 採樣:引入隨機性
典型解碼器:
- GPT (生成式預訓練變換器):僅解碼器,用於生成
- T5:編碼器-解碼器,通用任務
- 機器翻譯:編碼器傳給解碼器
與編碼器的區別:
- 解碼器:自回歸生成
- 編碼器:雙向理解
現代LLM多為僅解碼器架構。