詳細解釋
Seq2Seq(Sequence to Sequence)是將輸入序列轉換為輸出序列的模型架構,廣泛用於序列變換任務。
架構組成:
- 編碼器(Encoder):處理輸入序列,提取特徵
- 上下文向量:編碼器最終狀態或全部狀態
- 解碼器(Decoder):自回歸生成輸出序列
- 注意力:連接編解碼器的機制(後來加入)
歷史演進:
- 早期:RNN/LSTM 編解碼器(2014)
- 注意力:Bahdanau Attention(2015)
- Transformer架構 (變換器 / 注意力模型) (Switch Transformer):完全基於注意力(2017)
- 現代:T5、BART 等統一框架
應用任務:
- 機器翻譯:機器翻譯
- 文本摘要:長文→短文
- 對話生成:問→答
- 語音識別:音頻→文本
- 程式合成:自然語言→代碼
與其他架構的對比:
- Seq2Seq:輸入輸出不同,需轉換
- 僅編碼器(BERT):理解任務
- 僅解碼器(GPT):生成任務
現代發展:
- 編解碼器架構在特定任務仍有用
- 但 Decoder-only LLM 越來越通用
與 編碼器-解碼器、Transformer架構 (變換器 / 注意力模型) (Switch Transformer)、序列到序列 密切相關。