Mamba

Mamba

狀態空間模型,長文本架構

詳細解釋

Mamba是基於狀態空間模型(SSM)的序列建模架構,挑戰Transformer的長序列處理,線性複雜度。

核心:

  • 狀態空間模型:連續時間系統的離散化
  • 選擇性SSM:輸入相關的狀態轉移
  • 硬體感知算法:高效掃描實現
  • 線性複雜度:O(n) vs Transformer的O(n²)

與Transformer的對比:

  • 注意力:O(n²),全局但慢
  • Mamba:O(n),選擇性記憶,快
  • 長序列(>10K)時優勢明顯
  • 品質:在多項任務匹配Transformer

架構:

  • 線性投影
  • 選擇性SSM塊
  • 殘差連接
  • 無注意力、無MLP

優勢:

  • 長上下文:百萬token可行
  • 計算高效:線性縮放
  • 推理快:類RNN的遞歸生成

應用:

  • 長文檔處理
  • 基因組序列
  • 音頻、視頻
  • 任何長序列任務

Transformer架構 (變換器 / 注意力模型) (Switch Transformer)的潛在替代者,2024年最受關注的新架構。

探索更多AI詞彙

查看所有分類,繼續學習AI知識