詳細解釋
T5(Text-to-Text Transfer Transformer)是 Google 2019 年提出的統一文本處理框架,將所有 NLP 任務都視為文本到文本的轉換。
核心思想:
- 統一框架:翻譯、摘要、分類都是 text→text
- 任務前綴:用前綴標示任務類型
- 標準架構:Encoder-Decoder Transformer
- 大規模預訓練:C4 數據集(清洗後的網頁)
模型規模:
- T5-Small:60M 參數
- T5-Base:220M
- T5-Large:770M
- T5-3B、T5-11B:更大版本
後續發展:
- T5 v1.1:改進版本
- mT5:多語言版本
- UL2:統一生成和理解
- FLAN-T5:指令微調版本,非常流行
應用:
- 機器翻譯
- 文本摘要
- 問答系統
- 分類任務(輸出"positive"/"negative")
影響:
- 證明統一框架的可行性
- 啟發後續統一模型(如 GPT)
- FLAN-T5 是指令微調的重要基準
與 Transformer架構 (變換器 / 注意力模型) (Switch Transformer)、預訓練模型、指令微調 密切相關。