詳細解釋
狀態空間模型(SSM, State Space Models)是描述動態系統的數學模型,最近用於深度學習序列建模。
數學:
- 連續:ẋ = Ax + Bu, y = Cx + Du
- 離散:xₖ = Āxₖ₋₁ + B̄uₖ, yₖ = C̄xₖ + D̄uₖ
- 狀態x:壓縮的歷史資訊
- 輸入u,輸出y
深度學習應用:
- S4:結構化狀態空間序列模型
- H3: Hungry Hungry Hippos
- Mamba:選擇性SSM
- 挑戰RNN和Transformer
與RNN的對比:
- RNN:非線性,難並行化
- SSM:線性,可並行化
- 訓練快,推理也快
性質:
- 線性:可高效計算
- 遞歸:適合自回歸生成
- 長程依賴:精心設計的A矩陣
是Mamba的理論基礎,可能成為序列建模的新正統。