線性注意力

Linear Attention

計算複雜度線性的注意力

詳細解釋

線性注意力(Linear Attention)是計算複雜度線性於序列長度的注意力機制,用核技巧重構注意力計算。

標準注意力:O(n²d)

  • QK^T:n×n矩陣
  • 對長序列昂貴

線性注意力:O(nd²)

  • 核分解:sim(Q,K) = φ(Q)φ(K)^T
  • 重組計算順序
  • 矩陣乘法結合律

代表方法:

  • Performer:正交隨機特徵
  • RNN近似:遞歸計算
  • Linformer:低秩近似

優勢:

  • 理論高效:線性複雜度
  • 長序列:適合萬級token

挑戰:

  • 實際速度:常數因子大
  • 品質:可能略遜於標準注意力
  • 硬體優化:需專門實現才快

現代發展:

是高效注意力研究的重要方向。

探索更多AI詞彙

查看所有分類,繼續學習AI知識