詳細解釋
稀疏架構(Sparse Architectures)是每次只激活部分參數的模型設計,如混合專家模型 (MoE),大幅降低計算和記憶體需求。
稀疏類型:
- 專家混合(混合專家模型 (MoE)):不同輸入激活不同專家
- 稀疏注意力:只關注部分位置
- 條件計算:動態決定計算量
- 結構化稀疏:權重矩陣稀疏化
優勢:
- 計算高效:相同性能下更少FLOPs
- 容量大:總參數可很大
- 記憶體友好:活躍參數少
- 專業化:不同部分處理不同任務
挑戰:
- 負載平衡:專家使用不均
- 通訊開銷:專家間數據傳輸
- 優化困難:稀疏性導致梯度問題
- 硬體支援:需專門優化
代表模型:
- 混合專家模型 (MoE):Switch Transformer、GLaM
- Sparse Transformer:長序列稀疏注意力
- Mixtral:開源MoE
與稠密模型比較:
- 稀疏:總參數大,活躍參數少
- 稠密:所有參數都用
- 稀疏更高效但實現複雜
是未來大模型發展的重要方向。