詳細解釋
不依賴傳統 Tokenization(將文本拆為子詞單元)的語言模型,直接在字節或字符層面處理文本,或學習連續的隱藏表示。
傳統模型的問題:
- 詞表限制:無法表示未見過的詞(如科學術語、人名)
- 多語言膨脹:為涵蓋多語言,詞表可達 20 萬+,內存開銷大
- 信息損失:「unhappiness」拆為 「un」「happy」「ness」丟失構詞法
Token-free 路線:
- ByT5:Google 的字節級 T5,每個字節是一個 token(256 個即可覆蓋所有 UTF-8)
- CANINE:字符級預處理,用卷積和池化替代子詞切分
- MegaByte:Meta 的開創性工作,多尺度字节预测
- Perceiver IO:通用架構,可處理原始字節流
優勢:
- 魯棒性:沒有 OOV(詞表外)問題
- 簡潔:無需維護 BPE 分詞器
- 多語言天然:所有語言共享同一字節空間
劣勢:
- 序列長度爆炸:「Hello」是 5 個字節 vs 1 個 BPE token
- 計算成本:Transformer 的 O(n²) 注意力在長序列上昂貴
- 性能:目前仍落後於優化的子詞模型(如 GPT-4)
研究方向:稀疏注意力、線性 Transformer、狀態空間模型(如 Mamba)試圖解決長度問題,使 Token-free 成為可行選項。