無標記模型

Token-free Models

直接處理位元組的模型

詳細解釋

不依賴傳統 Tokenization(將文本拆為子詞單元)的語言模型,直接在字節或字符層面處理文本,或學習連續的隱藏表示。

傳統模型的問題:

  • 詞表限制:無法表示未見過的詞(如科學術語、人名)
  • 多語言膨脹:為涵蓋多語言,詞表可達 20 萬+,內存開銷大
  • 信息損失:「unhappiness」拆為 「un」「happy」「ness」丟失構詞法

Token-free 路線:

  • ByT5:Google 的字節級 T5,每個字節是一個 token(256 個即可覆蓋所有 UTF-8)
  • CANINE:字符級預處理,用卷積和池化替代子詞切分
  • MegaByte:Meta 的開創性工作,多尺度字节预测
  • Perceiver IO:通用架構,可處理原始字節流

優勢:

  • 魯棒性:沒有 OOV(詞表外)問題
  • 簡潔:無需維護 BPE 分詞器
  • 多語言天然:所有語言共享同一字節空間

劣勢:

  • 序列長度爆炸:「Hello」是 5 個字節 vs 1 個 BPE token
  • 計算成本:Transformer 的 O(n²) 注意力在長序列上昂貴
  • 性能:目前仍落後於優化的子詞模型(如 GPT-4)

研究方向:稀疏注意力、線性 Transformer、狀態空間模型(如 Mamba)試圖解決長度問題,使 Token-free 成為可行選項。

探索更多AI詞彙

查看所有分類,繼續學習AI知識