詳細解釋
Mamba是基於狀態空間模型(SSM)的序列建模架構,挑戰Transformer的長序列處理,線性複雜度。
核心:
- 狀態空間模型:連續時間系統的離散化
- 選擇性SSM:輸入相關的狀態轉移
- 硬體感知算法:高效掃描實現
- 線性複雜度:O(n) vs Transformer的O(n²)
與Transformer的對比:
- 注意力:O(n²),全局但慢
- Mamba:O(n),選擇性記憶,快
- 長序列(>10K)時優勢明顯
- 品質:在多項任務匹配Transformer
架構:
- 線性投影
- 選擇性SSM塊
- 殘差連接
- 無注意力、無MLP
優勢:
- 長上下文:百萬token可行
- 計算高效:線性縮放
- 推理快:類RNN的遞歸生成
應用:
- 長文檔處理
- 基因組序列
- 音頻、視頻
- 任何長序列任務
是Transformer架構 (變換器 / 注意力模型) (Switch Transformer)的潛在替代者,2024年最受關注的新架構。