T5

Text-to-Text Transfer Transformer

Google 的文本到文本統一框架 Transformer

詳細解釋

T5(Text-to-Text Transfer Transformer)是 Google 2019 年提出的統一文本處理框架,將所有 NLP 任務都視為文本到文本的轉換。

核心思想:

  • 統一框架:翻譯、摘要、分類都是 text→text
  • 任務前綴:用前綴標示任務類型
  • 標準架構:Encoder-Decoder Transformer
  • 大規模預訓練:C4 數據集(清洗後的網頁)

模型規模:

  • T5-Small:60M 參數
  • T5-Base:220M
  • T5-Large:770M
  • T5-3B、T5-11B:更大版本

後續發展:

  • T5 v1.1:改進版本
  • mT5:多語言版本
  • UL2:統一生成和理解
  • FLAN-T5:指令微調版本,非常流行

應用:

  • 機器翻譯
  • 文本摘要
  • 問答系統
  • 分類任務(輸出"positive"/"negative")

影響:

  • 證明統一框架的可行性
  • 啟發後續統一模型(如 GPT)
  • FLAN-T5 是指令微調的重要基準

Transformer架構 (變換器 / 注意力模型) (Switch Transformer)預訓練模型指令微調 密切相關。

探索更多AI詞彙

查看所有分類,繼續學習AI知識