詳細解釋
AI21 Labs 於 2024 年發布的混合架構模型,結合 Transformer 和 Mamba(狀態空間模型),旨在解決 Transformer 的上下文長度和效率瓶頸。
混合架構設計:
- 層級交替:Transformer 層(注意力)和 Mamba 層(狀態空間)交替
- Transformer 層:處理局部依賴,高質量表示
- Mamba 層:處理長程依賴,線性復雜度(O(n) 而非 O(n²))
- 專家混合(MoE):部分版本使用 Sparse MoE 進一步擴展
性能指標:
- 上下文:支持 256K tokens(Transformer 通常 128K)
- 速度:長序列處理比同等級 Transformer 快 3 倍
- 精度:在學術基準上與 Llama 3、Mixtral 競爭
與純 Transformer 對比:
- 優勢:長上下文效率高,內存佔用小
- 劣勢:生態較小(Hugging Face 支持但工具鏈不如 Llama 成熟)
- 訓練:需要特殊優化,標準訓練流程不完全適用
狀態空間模型(SSM)基礎:
- 靈感來自控制理論和信號處理
- 用隱藏狀態記憶歷史,而非像注意力那樣重新計算
- 選擇性 SSM(Selective SSM):Mamba 的創新,讓狀態動態依賴輸入
商業模式:
- 開源模型(Apache 2.0):吸引開發者和研究者
- AI21 Studio:API 服務變現
- 企業許可:定制化和支持
這是「後 Transformer」架構探索的一部分—— 隨著注意力機制的 O(n²) 成本成為瓶頸,業界積極尋找替代方案。Jamba 代表了「混合」路線,而非完全拋棄 Transformer。