狀態空間模型

SSM

State Space Models

詳細解釋

狀態空間模型(SSM, State Space Models)是描述動態系統的數學模型,最近用於深度學習序列建模。

數學:

  • 連續:ẋ = Ax + Bu, y = Cx + Du
  • 離散:xₖ = Āxₖ₋₁ + B̄uₖ, yₖ = C̄xₖ + D̄uₖ
  • 狀態x:壓縮的歷史資訊
  • 輸入u,輸出y

深度學習應用:

  • S4:結構化狀態空間序列模型
  • H3: Hungry Hungry Hippos
  • Mamba:選擇性SSM
  • 挑戰RNN和Transformer

與RNN的對比:

  • RNN:非線性,難並行化
  • SSM:線性,可並行化
  • 訓練快,推理也快

性質:

  • 線性:可高效計算
  • 遞歸:適合自回歸生成
  • 長程依賴:精心設計的A矩陣

Mamba的理論基礎,可能成為序列建模的新正統。

探索更多AI詞彙

查看所有分類,繼續學習AI知識