詳細解釋
序列到序列(Seq2Seq)是輸入和輸出皆為序列的模型架構,廣泛用於序列變換任務。
經典架構:
- 編碼器:RNN/LSTM/Transformer處理輸入
- 上下文向量:濃縮輸入資訊
- 解碼器:自回歸生成輸出序列
應用任務:
- 機器翻譯:不同語言序列轉換
- 文本摘要:長文→短文
- 對話生成:問句→答句
- 語音識別:音頻特徵→文本
- 程式合成:自然語言→代碼
歷史演進:
- RNN Seq2Seq:早期,梯度問題
- LSTM+Attention:注意力機制引入
- Transformer架構 (變換器 / 注意力模型) (Switch Transformer):完全基於注意力
- 現代:T5、BART等統一框架
與僅編碼器/僅解碼器的區別:
- Seq2Seq:輸入輸出不同,需轉換
- 僅編碼器(BERT):理解任務
- 僅解碼器(GPT):生成任務
訓練技巧:
- 教師強制:解碼器輸入用真實標籤
- 注意力對齊:可視化對齊品質
- 集束搜索:推理時優化解碼
是NLP序列變換的基礎架構。