稀疏架構

Sparse Architectures

每次只激活部分參數的架構

詳細解釋

稀疏架構(Sparse Architectures)是每次只激活部分參數的模型設計,如混合專家模型 (MoE),大幅降低計算和記憶體需求。

稀疏類型:

  • 專家混合(混合專家模型 (MoE)):不同輸入激活不同專家
  • 稀疏注意力:只關注部分位置
  • 條件計算:動態決定計算量
  • 結構化稀疏:權重矩陣稀疏化

優勢:

  • 計算高效:相同性能下更少FLOPs
  • 容量大:總參數可很大
  • 記憶體友好:活躍參數少
  • 專業化:不同部分處理不同任務

挑戰:

  • 負載平衡:專家使用不均
  • 通訊開銷:專家間數據傳輸
  • 優化困難:稀疏性導致梯度問題
  • 硬體支援:需專門優化

代表模型:

與稠密模型比較:

  • 稀疏:總參數大,活躍參數少
  • 稠密:所有參數都用
  • 稀疏更高效但實現複雜

是未來大模型發展的重要方向。

探索更多AI詞彙

查看所有分類,繼續學習AI知識