Jamba

Jamba

AI21 結合 Transformer 與 Mamba 的架構

詳細解釋

AI21 Labs 於 2024 年發布的混合架構模型,結合 Transformer 和 Mamba(狀態空間模型),旨在解決 Transformer 的上下文長度和效率瓶頸。

混合架構設計:

  • 層級交替:Transformer 層(注意力)和 Mamba 層(狀態空間)交替
  • Transformer 層:處理局部依賴,高質量表示
  • Mamba 層:處理長程依賴,線性復雜度(O(n) 而非 O(n²))
  • 專家混合(MoE):部分版本使用 Sparse MoE 進一步擴展

性能指標:

  • 上下文:支持 256K tokens(Transformer 通常 128K)
  • 速度:長序列處理比同等級 Transformer 快 3 倍
  • 精度:在學術基準上與 Llama 3、Mixtral 競爭

與純 Transformer 對比:

  • 優勢:長上下文效率高,內存佔用小
  • 劣勢:生態較小(Hugging Face 支持但工具鏈不如 Llama 成熟)
  • 訓練:需要特殊優化,標準訓練流程不完全適用

狀態空間模型(SSM)基礎:

  • 靈感來自控制理論和信號處理
  • 用隱藏狀態記憶歷史,而非像注意力那樣重新計算
  • 選擇性 SSM(Selective SSM):Mamba 的創新,讓狀態動態依賴輸入

商業模式:

  • 開源模型(Apache 2.0):吸引開發者和研究者
  • AI21 Studio:API 服務變現
  • 企業許可:定制化和支持

這是「後 Transformer」架構探索的一部分—— 隨著注意力機制的 O(n²) 成本成為瓶頸,業界積極尋找替代方案。Jamba 代表了「混合」路線,而非完全拋棄 Transformer。

探索更多AI詞彙

查看所有分類,繼續學習AI知識